本記事は Continuous AI in practice - The GitHub Blog の解説記事です。 ブログ概要(Overview) GitHubのエンジニアリングチームが公開したこのブログ記事は、従来のCI/CDパイプラインにAIエージェントを統合する「Continuous AI」の概念を提唱し、GitHub社内での実践パターンを7つのユースケースとして紹介している。著者...
論文概要 本記事は https://arxiv.org/abs/2501.09136 の解説記事です。 Agentic Retrieval-Augmented Generation(Agentic RAG)は、従来のRAGパイプラインに自律的なAIエージェントを組み込み、検索戦略の動的決定・反復的な文脈理解の改善・ワークフローの適応を実現するアーキテクチャである。本サーベイでは、Naiv...
本記事は Outlines: Structured Text Generation の解説記事です。 論文概要(Abstract) Outlinesは、大規模言語モデル(LLM)の出力を正規表現、JSON Schema、文脈自由文法(CFG)に100%準拠させる構造化テキスト生成ライブラリである。著者らは、制約仕様を有限状態マシン(FSM)にコンパイルし、トークンごとの許可集合を事前計算...
本記事は Agentless: Demystifying LLM-based Software Engineering Agents の解説記事です。 論文概要(Abstract) Agentlessは、LLMにツールやシェルアクセスを与えずに、ソフトウェアのバグ修正を自律的に行う2ステップ手法である。著者らは、複雑なエージェントループを使わず「故障箇所の特定(Localization)...
本記事は A Survey on LLM-based Multi-Agent Systems: Recent Advances and New Frontiers の解説記事です。 論文概要(Abstract) 本サーベイは、LLM(大規模言語モデル)を基盤としたマルチエージェントシステム(LLM-MAS)に関する200本以上の論文を体系的に整理し、「アーキテクチャ」「コミュニケーション...
本記事は OpenHands: An Open Platform for AI Software Developers as Generalist Agents の解説記事です。 論文概要(Abstract) OpenHandsは、LLMエージェントが実際の開発環境(Dockerサンドボックス、ブラウザ、ターミナル、ファイルシステム)を操作してソフトウェア開発タスクを遂行できるオープンソ...
本記事は Effective Harnesses for Long-Running Agents(Anthropic Engineering Blog、2025年11月26日公開、著者: Justin Young)の解説記事です。 ブログ概要(Summary) 長時間稼働するAIエージェントが複数のコンテキストウィンドウにまたがって進捗を維持する際の根本的な課題 — 「各新セッションが前...
本記事は https://arxiv.org/abs/2311.12785 の解説記事です。 論文概要(Abstract) LLM Compilerは、LLMエージェントのツール呼び出し(function calling)を「コンパイラ」のメタファーで体系化し、独立した関数呼び出しをDAG(有向非巡回グラフ)として表現・並列実行するフレームワークである。著者らは、従来のReActパターン...
本記事は Reasoning Models Don’t Always Say What They Think の解説記事です。 論文概要(Abstract) Chain-of-Thought(CoT)推論トレースは、LLMがどのように回答に至ったかを示す証拠として広く利用されている。しかし、そのトレースはモデルの実際の推論過程を忠実に反映しているのだろうか。著者らはこの問いに対し、プロン...
本記事は SWE-bench Verified: A More Reliable Benchmark for Evaluating AI Coding Agents の解説記事です。 論文概要(Abstract) SWE-benchはGitHub Issueの自動解決能力でAIコーディングエージェントを評価するベンチマークとして広く利用されているが、一部のタスクが解決不可能であったりテス...