本記事は arXiv:2406.12045 “τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains” の解説記事です。 論文概要(Abstract) LLMエージェントのツール使用能力を、ユーザとの動的な会話の中で評価するベンチマークを提案した研究である。著者らは小売(retail)と航空(a...
本記事は ACL 2025 “Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models” の解説記事です。 論文概要(Abstract) 汎用LLMに外部ツールライブラリへの動的アクセス能力を付与するMeta-Toolシステムと、オープンワールド...
本記事は arXiv:2512.24565 “MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use” の解説記事です。 論文概要(Abstract) Model Context Protocol(MCP)を通じたLLMエージェントのツール使用能力を評価するベンチマークを提案した研究...
本記事は arXiv:2409.00920 “ToolACE: Winning the Points of LLM Function Calling” の解説記事です。 論文概要(Abstract) LLMのfunction calling能力を向上させるための高品質学習データ自動生成パイプラインを提案した研究である。著者らはTool Self-evolution Synthesis(T...
本記事は arXiv:2602.14878 “Model Context Protocol (MCP) Tool Descriptions Are Smelly!” の解説記事です。 論文概要(Abstract) Model Context Protocol(MCP)エコシステムにおけるツール記述の品質問題を体系的に分析した研究である。著者らは103のMCPサーバから856のツールを収集...
本記事は AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls の解説記事です。 論文概要(Abstract) AnyToolは、16,000以上のAPI(RapidAPI)から適切なツールを選択し、ユーザーのクエリを解決するLLMエージェントである。著者ら(Yu Du, Fangyun Wei, ...
本記事は xLAM: A Family of Large Action Models to Empower AI Agent Systems の解説記事です。 論文概要(Abstract) xLAMは、Salesforce AIが開発したFunction Calling(ツール呼び出し)特化のモデルファミリーである。著者らは、異種の学習データセット(ToolBench、BFCL、Agen...
本記事は Gorilla: Large Language Model Connected with Massive APIs の解説記事です。 論文概要(Abstract) Gorillaは、LLMがAPI呼び出しを生成する際のハルシネーション(存在しないAPIや不正な引数の生成)を抑制するために、検索拡張(Retrieval-Augmented)ファインチューニングを適用したモデルであ...
本記事は Building Effective Agents — Anthropic Research の解説記事です。 ブログ概要(Summary) Anthropicが2024年12月に公開した「Building Effective Agents」は、LLMを用いたエージェントシステムの設計に関する実践ガイドである。著者らは、エージェント(Agent)とワークフロー(Workflow...
本記事は LLMCompiler: An LLM Compiler for Parallel Function Calling の解説記事です。 論文概要(Abstract) LLMCompilerは、LLM(大規模言語モデル)が外部関数を呼び出す際の逐次実行ボトルネックを解消するために、古典的コンパイラの命令レベル並列性(ILP: Instruction-Level Paralleli...