論文概要(Abstract) GPQA(Graduate-Level Google-Proof Q&A Benchmark)は、生物学・物理学・化学の3領域にわたる448問の4択問題からなるベンチマークデータセットである。各問題はPhD保持者またはPhD課程の専門家によって作成され、同分野の専門家が正答率65%(事後的に誤りを除外すると74%)を達成する一方、非専門家の検証者は30...
本記事は arXiv:2305.05176 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance の解説記事です。 論文概要(Abstract) FrugalGPTは、複数のLLMサービスを効率的に利用するための3つの戦略(プロンプト適応、LLM近似、LLMカスケ...
本記事は arXiv:2406.18665 RouteLLM: Learning to Route LLMs with Preference Data の解説記事です。 論文概要(Abstract) RouteLLMは、LLMへのクエリを「強力だが高コストなモデル」と「弱いが低コストなモデル」のどちらに振り分けるかを動的に決定するルーターを学習するフレームワークである。著者らはChatb...
論文概要(Abstract) MMLU-Pro(Massive Multitask Language Understanding Pro)は、既存のMMLUベンチマークの飽和問題・ノイズ問題・プロンプト感度問題を解決するために設計された強化版ベンチマークである。14分野12,032問で構成され、選択肢を4択から10択に拡張し、推論重視の問題を統合することで、モデル間の識別力を大幅に向上させ...
本記事は SWE-bench: Can Language Models Resolve Real-World GitHub Issues?(Jimenez et al., 2023; ICLR 2024 Oral)の解説記事です。 論文概要(Abstract) SWE-benchは、GitHubの実リポジトリから収集した2,294件のイシュー・プルリクエストペアを用いて、言語モデルのソフ...
論文概要(Abstract) 本記事は Benchmarking Agentic Workflow Generation(WorFBench)の解説記事です。 WorFBenchは、LLMエージェントが複雑なタスクを実行可能なワークフロー(有向非巡回グラフ: DAG)に分解する能力を体系的に評価するベンチマークである。著者らは、既存の評価フレームワークがシナリオの多様性やワークフロー構造...
論文概要(Abstract) 本記事は MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework の解説記事です。 MetaGPTは、人間のソフトウェア開発組織で用いられる標準作業手順書(SOP: Standard Operating Procedures)をLLMエージェントの協調プロトコルとしてコード化する...
論文概要(Abstract) 本記事は ReAct: Synergizing Reasoning and Acting in Language Models の解説記事です。 ReActは、大規模言語モデル(LLM)に推論トレース(Thought)とタスク固有の行動(Action)を交互に生成させるフレームワークである。従来のChain-of-Thought(CoT)が推論のみを行い、行...
ブログ概要(Summary) 本記事は Testing Agent Skills Systematically with Evals の解説記事です。 OpenAI開発者ブログ「Testing Agent Skills Systematically with Evals」は、AIエージェントが備える個々の スキル(skill) を体系的にテストするためのフレームワークを提示している。従来...
ブログ概要(Summary) 本記事は Building LangGraph: Designing an Agent Runtime from First Principles の解説記事です。 この記事は Zenn記事: LangGraph v1.1ステートマシンのドメインモデリングとテスト駆動設計 の深掘りです。 LangGraphは、LLMエージェントを本番環境で運用するためのフ...