論文概要(Abstract) 本記事は https://arxiv.org/abs/2308.00352 の解説記事です。 MetaGPTは、人間の組織運営で用いられるSOP(Standard Operating Procedures)をプログラム的に定義し、ProductManager・Architect・Engineer・QAといった役割を持つLLMエージェントが構造化メッセージを介...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2504.10903 の解説記事です。 ToolRL(Li et al., 2025)は、LLMのツール使用能力を強化学習(RL)と原理的な報酬設計によって向上させる手法を提案している。従来のSFT(Supervised Fine-Tuning)ではフォーマットエラーや既知ツールへの過学習が問題となってい...
ブログ概要(Summary) Google Researchが2026年1月に公開したブログ記事「Towards a science of scaling agent systems」は、マルチエージェントシステムの設計選択を科学的に評価した大規模実験の報告である。180種類のエージェント構成を5つのアーキテクチャ(Single-Agent, Independent, Centralize...
Anthropic解説: Building Effective Agents ブログ概要(Summary) 本記事は https://www.anthropic.com/research/building-effective-agents の解説記事です。 Anthropicが2024年12月に公開した “Building Effective Agents” は、LLMを活用したエージ...
論文概要(Abstract) 大規模言語モデル(LLM)のツール使用能力において、オープンソースモデルとChatGPTの間には大きな性能差が存在していた。著者らはこの格差を解消するため、RapidAPI Hubから収集した16,464個の実世界APIを網羅するデータセットToolBench、木構造探索による推論アルゴリズムDFSDT(Depth-First Search-based Dec...
本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding(Scale Research Team, 2025年9月)の解説記事です。 ブログ概要(Summary) SWE-Bench Proは、Scale AIのResearchチームが2025年9月に公開したLLMコーディングベンチマークである。従来のSWE-Bench Verifie...
本記事は arXiv:2410.10347 A Unified Approach to Routing and Cascading for LLMs の解説記事です。 論文概要(Abstract) 本論文は、LLM推論コスト削減の2大戦略であるルーティングとカスケードを統合する理論的フレームワーク「UniRouter」を提案している。著者らは統合手法が各単独手法と少なくとも同等以上の性能...
論文概要(Abstract) 本論文「Data Contamination Through the Lens of Time」は、大規模言語モデル(LLM)の訓練データにベンチマークデータが混入する「データ汚染(Data Contamination)」の問題を、時系列分析の観点から定量的に検証した研究である。著者らは、GPTモデルの訓練データカットオフ日を自然実験として活用し、カットオフ前...
本記事は arXiv:2506.22716 BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute の解説記事です。 論文概要(Abstract) BEST-Route(Best-of-N Efficient Sampling and Test-time Routing)は、LLMルーティングをモデル選択とサンプル数...
論文概要(Abstract) 大規模言語モデル(LLM)によるコード生成の性能評価において、既存ベンチマークのテストケース不足が深刻な問題であることを明らかにした論文である。著者らは、OpenAIが公開したHumanEval(164問のPythonプログラミング問題)に対し、LLMベースの生成と型認識ミューテーションを組み合わせた自動テスト入力生成により、テストケースを80倍に拡張したHu...