本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (arXiv:2309.01431) の解説記事です。 論文概要(Abstract) RAGASは、Retrieval-Augmented Generation(RAG)パイプラインを参照回答なし(reference-free)で自動評価するフレームワーク...
本記事は Code execution with MCP: building more efficient AI agents (Anthropic Engineering Blog) の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングブログは、MCP(Model Context Protocol)を通じたツール連携におけるトークン消費の非効率性を指摘し...
本記事は Adaptive Orchestration: Cognitive Architectures in Multi-Agent AI Systems for Enterprise Applications (arXiv:2502.18082) の解説記事です。 論文概要(Abstract) 本論文は、エンタープライズ向けマルチエージェントAIシステムのための認知アーキテクチャ「A...
本記事は FlowBench: Evaluating LLM Agents Across Diverse Procedural Workflows (arXiv:2503.12347) の解説記事です。 論文概要(Abstract) FlowBenchは、LLMエージェントを4つのワークフロー型(Sequential、Conditional、Parallel、Recovery)で体系的に...
本記事は Tool-Augmented LLMs: A Survey on Integration Architectures and Failure Patterns (arXiv:2504.10376) の解説記事です。 論文概要(Abstract) 本論文は、ツール拡張LLM(Tool-Augmented LLMs)における統合アーキテクチャと障害パターンを体系的に整理したサーベイ...
本記事は MCP-Zero: Active Tool Discovery and Recommendation for LLM Agents (arXiv:2504.08999) の解説記事です。 論文概要(Abstract) MCP-Zero は、300以上のMCP(Model Context Protocol)ツールが存在する大規模環境において、LLMエージェントがタスクに必要なツー...
論文概要(Abstract) 本記事は arXiv:2402.01680 の解説記事です。 LLMは多様なタスクで優れた性能を示し、自律的な計画・推論エージェントとしての利用が進んでいる。本サーベイは、単一エージェントの発展を踏まえ、LLMベースのマルチエージェントシステムが複雑な問題解決と世界シミュレーションにおいてどのような進展を遂げているかを包括的に調査する。著者らは4つの研究課題...
論文概要(Abstract) 本記事は arXiv:2302.04761 の解説記事です。 言語モデル(LM)は多くのタスクで優れた能力を示す一方、算術演算や事実検索といった基本的な機能では、はるかに小さな専用モデルに劣ることがある。著者らは、LMが外部ツールのAPIを自己教師あり学習で使用方法を習得するモデル「Toolformer」を提案した。Toolformerは「どのAPIを呼ぶか...
論文概要(Abstract) 本記事は arXiv:2503.01935 の解説記事です。 LLMは自律エージェントとして優れた能力を示しているが、既存のベンチマークはシングルエージェントタスクに限定されるか、特定ドメインに閉じている。MultiAgentBenchは、マルチエージェントシステムをタスク完了度と協調・競争の質の両面から評価する包括的ベンチマークであり、マイルストーンベース...
論文概要(Abstract) 本記事は arXiv:2501.06322 の解説記事です。 LLMの進化に伴い、複数のLLMベースエージェントが協調してタスクを解決するマルチエージェントシステム(MAS)が急速に発展している。本サーベイは、LLMベースMASにおける協調メカニズムを体系的にレビューし、単一エージェントモデルから動的なマルチエージェントアーキテクチャへの進化を追跡する。著者...