論文概要(Abstract) 本記事は arXiv:2402.01680 の解説記事です。 LLMは多様なタスクで優れた性能を示し、自律的な計画・推論エージェントとしての利用が進んでいる。本サーベイは、単一エージェントの発展を踏まえ、LLMベースのマルチエージェントシステムが複雑な問題解決と世界シミュレーションにおいてどのような進展を遂げているかを包括的に調査する。著者らは4つの研究課題...
論文概要(Abstract) 本記事は arXiv:2302.04761 の解説記事です。 言語モデル(LM)は多くのタスクで優れた能力を示す一方、算術演算や事実検索といった基本的な機能では、はるかに小さな専用モデルに劣ることがある。著者らは、LMが外部ツールのAPIを自己教師あり学習で使用方法を習得するモデル「Toolformer」を提案した。Toolformerは「どのAPIを呼ぶか...
論文概要(Abstract) 本記事は arXiv:2503.01935 の解説記事です。 LLMは自律エージェントとして優れた能力を示しているが、既存のベンチマークはシングルエージェントタスクに限定されるか、特定ドメインに閉じている。MultiAgentBenchは、マルチエージェントシステムをタスク完了度と協調・競争の質の両面から評価する包括的ベンチマークであり、マイルストーンベース...
論文概要(Abstract) 本記事は arXiv:2501.06322 の解説記事です。 LLMの進化に伴い、複数のLLMベースエージェントが協調してタスクを解決するマルチエージェントシステム(MAS)が急速に発展している。本サーベイは、LLMベースMASにおける協調メカニズムを体系的にレビューし、単一エージェントモデルから動的なマルチエージェントアーキテクチャへの進化を追跡する。著者...
論文概要(Abstract) 本記事は arXiv:2308.08155 の解説記事です。 AutoGenは、Microsoft Researchが2023年に発表したオープンソースフレームワークであり、複数のエージェントが会話を通じてタスクを達成するLLMアプリケーションの構築基盤を提供する。著者らは、エージェントを「カスタマイズ可能(customizable)」「会話可能(conve...
本記事は PremAI Blog: RAG Evaluation: Metrics, Frameworks & Testing (2026) の解説記事です。 ブログ概要(Summary) PremAI社のArnav Jalan氏が2026年3月に公開した本ガイドは、RAGシステムの本番品質評価について、指標設計からフレームワーク選定、CI/CD統合、本番監視戦略までを体系的にカ...
本記事は arXiv:2311.09476 (ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems) の解説記事です。 論文概要(Abstract) ARES(Automated RAG Evaluation System)は、RAGシステムを少量の人手ラベル(150件程度)で...
論文概要(Abstract) 本記事は arXiv:2509.25238(Dan et al., 2025)の解説記事です。 LLMエージェントは実世界のツール呼び出し環境で、不正なパラメータ、API廃止、環境エラーといったツール障害に頻繁に遭遇する。PALADINはFailure Exemplar Bank(FEB)という障害事例バンクを導入し、過去の障害-回復ペアを蓄積・検索すること...
本記事は arXiv:2502.13595 (MMTEB: Massive Multilingual Text Embedding Benchmark) の解説記事です。本論文はICLR 2025に採択されています。 論文概要(Abstract) MMTEB(Massive Multilingual Text Embedding Benchmark)は、英語中心であったMTEBを250言...
論文概要(Abstract) 本記事は arXiv:2603.01548(Bholani, 2026)の解説記事です。 LLMエージェントがツールを呼び出す際、ReActのようなステップバイステップ推論ではLLMを各ステップで呼び出す必要があり、高コストかつ障害時の回復にも追加のLLM推論を要する。本論文はSelf-Healing Routerを提案し、タスク開始時にLLMが一度だけ有向...