論文概要(Abstract) 本記事は Benchmarking Agentic Workflow Generation(WorFBench)の解説記事です。 WorFBenchは、LLMエージェントが複雑なタスクを実行可能なワークフロー(有向非巡回グラフ: DAG)に分解する能力を体系的に評価するベンチマークである。著者らは、既存の評価フレームワークがシナリオの多様性やワークフロー構造...
論文概要(Abstract) 本記事は MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework の解説記事です。 MetaGPTは、人間のソフトウェア開発組織で用いられる標準作業手順書(SOP: Standard Operating Procedures)をLLMエージェントの協調プロトコルとしてコード化する...
論文概要(Abstract) 本記事は ReAct: Synergizing Reasoning and Acting in Language Models の解説記事です。 ReActは、大規模言語モデル(LLM)に推論トレース(Thought)とタスク固有の行動(Action)を交互に生成させるフレームワークである。従来のChain-of-Thought(CoT)が推論のみを行い、行...
ブログ概要(Summary) 本記事は Testing Agent Skills Systematically with Evals の解説記事です。 OpenAI開発者ブログ「Testing Agent Skills Systematically with Evals」は、AIエージェントが備える個々の スキル(skill) を体系的にテストするためのフレームワークを提示している。従来...
ブログ概要(Summary) 本記事は Building LangGraph: Designing an Agent Runtime from First Principles の解説記事です。 この記事は Zenn記事: LangGraph v1.1ステートマシンのドメインモデリングとテスト駆動設計 の深掘りです。 LangGraphは、LLMエージェントを本番環境で運用するためのフ...
本記事は Long Context vs. RAG for LLMs: An Evaluation and Revisits の解説記事です。 論文概要(Abstract) 長文脈LLM(LC-LLM)とRAG(Retrieval-Augmented Generation)のどちらが知識集約型タスクに適しているかを、制御された実験で体系的に比較した研究である。著者らは8つのLLMと4つの...
本記事は Context Engineering for AI Agents: Lessons from Building Manus の解説記事です。 ブログ概要(Summary) ManusチームのYichao ‘Peak’ Ji氏が、AIエージェントフレームワークを4度再構築する過程で得たContext Engineeringの実践的教訓を共有したエンジニアリングブログ記事である。...
本記事は Benchmarking Multi-Agent LLM Architectures for Financial Document Processing の解説記事です。 論文概要(Abstract) 金融文書処理(10-Kファイリング、決算発表トランスクリプト、財務テーブル等)における複数のマルチエージェントLLMアーキテクチャを体系的にベンチマークした研究である。著者らは逐...
本記事は Context Length Alone Hurts LLM Performance Despite Perfect Retrieval の解説記事です。 論文概要(Abstract) LLMの質問応答タスクにおけるコンテキスト長の影響を、検索品質を制御した実験で調査した研究である。著者らは必要な情報を直接コンテキストに挿入し(完全な検索を保証)、コンテキスト長の影響を検索品質...
本記事は LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models の解説記事です。 論文概要(Abstract) LLMLinguaは、小型言語モデル(LLaMA-7B等)を圧縮器として使用し、大型LLM(GPT-4等)に送信するプロンプトを最大20倍圧縮する手法である。著者らは、...