Home
0h-n0 TechBLog
キャンセル

📄 論文解説: MetaGPT — SOPベースのマルチエージェント協調フレームワーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2308.00352 の解説記事です。 MetaGPTは、人間の組織運営で用いられるSOP(Standard Operating Procedures)をプログラム的に定義し、ProductManager・Architect・Engineer・QAといった役割を持つLLMエージェントが構造化メッセージを介...

📄 論文解説: ToolRL — 報酬設計だけでLLMのツール使用能力を獲得する

論文概要(Abstract) 本記事は https://arxiv.org/abs/2504.10903 の解説記事です。 ToolRL(Li et al., 2025)は、LLMのツール使用能力を強化学習(RL)と原理的な報酬設計によって向上させる手法を提案している。従来のSFT(Supervised Fine-Tuning)ではフォーマットエラーや既知ツールへの過学習が問題となってい...

✍️ Google Research解説: マルチエージェントスケーリングの科学 — いつ・なぜエージェントシステムは機能するか

ブログ概要(Summary) Google Researchが2026年1月に公開したブログ記事「Towards a science of scaling agent systems」は、マルチエージェントシステムの設計選択を科学的に評価した大規模実験の報告である。180種類のエージェント構成を5つのアーキテクチャ(Single-Agent, Independent, Centralize...

📄 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク

論文概要(Abstract) 大規模言語モデル(LLM)のツール使用能力において、オープンソースモデルとChatGPTの間には大きな性能差が存在していた。著者らはこの格差を解消するため、RapidAPI Hubから収集した16,464個の実世界APIを網羅するデータセットToolBench、木構造探索による推論アルゴリズムDFSDT(Depth-First Search-based Dec...

✍️ Scale AI SWE-Bench Pro解説: データ汚染耐性を備えた次世代コーディングベンチマークの設計と結果

本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding(Scale Research Team, 2025年9月)の解説記事です。 ブログ概要(Summary) SWE-Bench Proは、Scale AIのResearchチームが2025年9月に公開したLLMコーディングベンチマークである。従来のSWE-Bench Verifie...

📄 論文解説: ルーティングとカスケードの統合フレームワーク — 理論最適性の証明と実践

本記事は arXiv:2410.10347 A Unified Approach to Routing and Cascading for LLMs の解説記事です。 論文概要(Abstract) 本論文は、LLM推論コスト削減の2大戦略であるルーティングとカスケードを統合する理論的フレームワーク「UniRouter」を提案している。著者らは統合手法が各単独手法と少なくとも同等以上の性能...

📄 論文解説: Data Contamination Through the Lens of Time — LLMベンチマーク汚染の時系列分析

論文概要(Abstract) 本論文「Data Contamination Through the Lens of Time」は、大規模言語モデル(LLM)の訓練データにベンチマークデータが混入する「データ汚染(Data Contamination)」の問題を、時系列分析の観点から定量的に検証した研究である。著者らは、GPTモデルの訓練データカットオフ日を自然実験として活用し、カットオフ前...

📄 論文解説: EvalPlus — コード生成LLMの厳密な評価フレームワーク

論文概要(Abstract) 大規模言語モデル(LLM)によるコード生成の性能評価において、既存ベンチマークのテストケース不足が深刻な問題であることを明らかにした論文である。著者らは、OpenAIが公開したHumanEval(164問のPythonプログラミング問題)に対し、LLMベースの生成と型認識ミューテーションを組み合わせた自動テスト入力生成により、テストケースを80倍に拡張したHu...