✍️ Martin Fowler解説: Harness Engineering for Coding Agents — Guide/Sensorパターンの実践的設計

本記事は Harness engineering for coding agent users (martinfowler.com) の解説記事です。ブログ概要（Summary） Martin Fowlerは、AIコーディングエージェントにおけるハーネスエンジニアリング（Harness Engineering）の実践的設計パターンを体系化した記事を公開した。著者はハーネスを「AIエージ...

26/04/2026 blog tech_blog

LLM agent harness-engineering +3

✍️ Anthropic公式ブログ解説: Claude Opus 4.7 — 高解像度ビジョンとアダプティブ推論の技術詳細

Anthropic公式ブログ解説: Claude Opus 4.7 — 高解像度ビジョンとアダプティブ推論の技術詳細ブログ概要本記事は Anthropic公式ブログ: Introducing Claude Opus 4.7 の解説記事です。 Claude Opus 4.7は2026年4月16日にリリースされたAnthropicの最新フラッグシップモデルであり、前世代のOpus 4....

26/04/2026 blog tech_blog

Claude Anthropic Opus-4.7 +9

📄 論文解説: Safety Tax — 安全性アラインメントが大規模推論モデルの推論能力を低下させるトレードオフ

論文概要（Abstract）本記事は arXiv:2503.00555 の解説記事です。Large Reasoning Model（LRM）に安全性アラインメントを適用すると、安全性は回復できるものの推論能力が劣化するというSafety Tax現象を体系的に検証した研究について解説します。著者らはこのトレードオフを定量的に明らかにし、副産物としてDirectRefusalデータセットを公...

26/04/2026 blog paper

safety-tax safety-alignment LRM +5

📄 論文解説: Evaluating LLMs as Judges — LLM-as-judgeの正確性・位置バイアス・一貫性の体系的評価

本記事は arXiv:2501.08479 の解説記事です。論文概要（Abstract） LLM-as-judgeはLLM出力の品質評価をスケーラブルに行う手法として広く普及しているが、その信頼性に関する体系的な検証は不十分であった。本論文では、LLMジャッジの信頼性を正確性（Accuracy）・位置独立性（Position Independence）・一貫性（Consistency）...

26/04/2026 blog paper

LLM evaluation judge +4

📄 ICLR 2025論文解説: Differential Transformer — ノイズキャンセリング発想のアテンション機構

本記事は Differential Transformer (arXiv:2410.05258) の解説記事です。ICLR 2025 Oral 採択論文。論文概要（Abstract） Differential Transformerは、2つのsoftmaxアテンションマップの差分をアテンションスコアとして使用する手法である。著者ら（Tianzhu Ye, Li Dong, Yu...

26/04/2026 blog paper

DifferentialAttention attention transformer +3

📄 論文解説: MetaGPT — Meta Programming for A Multi-Agent Collaborative Framework

本記事は arXiv:2308.00352 の解説記事です。論文概要（Abstract） Hong et al.（2023）は、ソフトウェア開発ワークフロー（PM → アーキテクト → エンジニア → QA）をLLMエージェントのロールに直接写像し、各エージェント間の通信に型付きI/Oスキーマ（PRD・設計書・コード等の構造化ドキュメント）を導入することで、ハルシネーション伝播を抑制す...

26/04/2026 blog paper

multi-agent-systems LLM software-development +4

✍️ DeepSeek V4-Pro解説: 1.6Tパラメータ MoEアーキテクチャと圧縮スパースアテンションの技術詳細

ブログ概要 DeepSeek社は2026年4月24日、大規模言語モデルDeepSeek V4シリーズをプレビューリリースした。フラグシップモデルであるV4-Proは総パラメータ数1.6T、活性化パラメータ数49Bという構成で、384個のルーティングエキスパートを持つMixture-of-Experts（MoE）アーキテクチャを採用している。注目すべきは、新たに導入されたCompressed...

26/04/2026 blog tech_blog

DeepSeek MoE mixture-of-experts +8

✍️ Anthropic公式ブログ解説: Building Effective AI Agents — ワークフロー/エージェント設計パターンと評価手法

本記事は Anthropic公式ブログ: Building Effective AI Agents の解説記事です。ブログ概要（Summary） Anthropicが公式に公開したAIエージェント構築ガイドである。著者らは、LLMを活用したシステムを「ワークフロー」（事前定義されたコードパスによるオーケストレーション）と「エージェント」（LLMが自律的にプロセスとツール使用を制御）に分...

26/04/2026 blog tech_blog

agent LLM architecture +4

📄 論文解説: Skills for Scalable AI Agents — スキルのライフサイクルと相転移現象

本記事は Skills for Scalable AI Agents (arXiv:2602.12430) の解説記事です。論文概要（Abstract） Li et al.（2026）は、LLMエージェントにおける「スキル（Skill）」を統一的に整理した論文を発表した。著者らはスキルを取得方法（Acquisition）・表現形式（Representation）・呼び出し方法（Invo...

26/04/2026 blog paper

LLM agent skills +4

📄 論文解説: SafeThink — 推論チェーン初期の数ステップ介入で安全性を回復するinference-time防御

論文概要（Abstract）本記事は Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away (arXiv:2602.11096) の解説記事です。 SafeThinkは、マルチモーダル大規模推論モデル（MLRM）に対するinference-time防御手法である。安全報酬モデルで推論トレー...

26/04/2026 blog paper

SafeThink inference-time-safety MLRM +5

1
...
55
56
57
...
154
56 / 154