Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク

本記事は arXiv:2412.05579 “Agents Are Not Enough”(2024年12月)の解説記事です。 論文概要(Abstract) 著者らは、単一のLLMエージェントアーキテクチャには記憶・推論・実行の分離不全という根本的な限界があることを指摘し、複数の専門エージェントが役割分担と相互批評を通じて協調するSociety of Agents(SoA)フレームワーク...

📄 ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク

本記事は A Unified Approach to Routing and Cascading for LLMs(Dekoninck, Baader, Vechev, ICLR 2025)の解説記事です。 論文概要(Abstract) LLMのモデル選択戦略には、クエリに基づいて1つのモデルを選択する「ルーティング」と、小さいモデルから順に試行して満足な回答が得られるまで大きなモデルに...

📄 ICML 2025論文解説: BFCL — Berkeley Function Calling Leaderboard

本記事は The Berkeley Function Calling Leaderboard の解説記事です。 論文概要 Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling(関数呼び出し)能力を体系的に評価するためのベンチマーク BFCL(Berkeley Function Calling...

✍️ Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール

本記事は Agent-Pex: Automated Evaluation and Testing of AI Agents の解説記事です。 AIエージェントの品質評価は、従来のソフトウェアテストとは根本的に異なる課題を含んでいる。LLMベースのエージェントは確率的な推論を行うため、同一入力に対しても異なる出力を返しうる。さらに、エージェントの振る舞いを定義する「仕様」はプロンプト内に自然...

✍️ GSoC 2025 ClangIRアップストリーミングの全貌:191PR・VectorType・ComplexType・例外処理

本記事は GSoC 2025: ClangIR Upstreaming(LLVM Project Blog) の解説記事です。 ブログ概要(Summary) 2025年のGoogle Summer of Code(GSoC)において、Amr HeshamがClangIRのアップストリーミング(LLVMメインリポジトリへの統合)を大規模に推進しました。メインLLVMリポジトリに191件のP...

📄 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク

本記事は arXiv:2602.10975 “FeatureBench: Benchmarking Agentic Coding for Complex Feature Development”(Zhang, Wang, Xu, Hu, Liu, 2025年2月)の解説記事です。 論文概要(Abstract) 著者らは、コーディングエージェントの「新機能実装」能力を評価するベンチマークF...

✍️ Google Research解説: エージェントシステムのスケーリング科学 — マルチエージェントが機能する条件と失敗する条件の定量分析

本記事は Google Research Blog “Towards a science of scaling agent systems: When and why agent systems work”(Kim, Liu, 2026年1月、arXiv:2512.08296)の解説記事です。 ブログ概要(Summary) Google Researchの研究者らは、「エージェントを増や...