Home
0h-n0 TechBLog
キャンセル

📄 論文解説: GPQA — 大学院レベルのGoogle-Proof質問応答ベンチマーク

論文概要(Abstract) GPQA(Graduate-Level Google-Proof Q&A Benchmark)は、生物学・物理学・化学の3領域にわたる448問の4択問題からなるベンチマークデータセットである。各問題はPhD保持者またはPhD課程の専門家によって作成され、同分野の専門家が正答率65%(事後的に誤りを除外すると74%)を達成する一方、非専門家の検証者は30...

📄 論文解説: RouteLLM — 人間嗜好データによるLLMルーティングの学習

本記事は arXiv:2406.18665 RouteLLM: Learning to Route LLMs with Preference Data の解説記事です。 論文概要(Abstract) RouteLLMは、LLMへのクエリを「強力だが高コストなモデル」と「弱いが低コストなモデル」のどちらに振り分けるかを動的に決定するルーターを学習するフレームワークである。著者らはChatb...

📄 論文解説: MMLU-Pro — より頑健で挑戦的なマルチタスク言語理解ベンチマーク

論文概要(Abstract) MMLU-Pro(Massive Multitask Language Understanding Pro)は、既存のMMLUベンチマークの飽和問題・ノイズ問題・プロンプト感度問題を解決するために設計された強化版ベンチマークである。14分野12,032問で構成され、選択肢を4択から10択に拡張し、推論重視の問題を統合することで、モデル間の識別力を大幅に向上させ...

📄 論文解説: Benchmarking Agentic Workflow Generation — LLMワークフロー計画能力の体系的評価

論文概要(Abstract) 本記事は Benchmarking Agentic Workflow Generation(WorFBench)の解説記事です。 WorFBenchは、LLMエージェントが複雑なタスクを実行可能なワークフロー(有向非巡回グラフ: DAG)に分解する能力を体系的に評価するベンチマークである。著者らは、既存の評価フレームワークがシナリオの多様性やワークフロー構造...

📄 論文解説: MetaGPT -- SOPベースのマルチエージェント協調フレームワーク

論文概要(Abstract) 本記事は MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework の解説記事です。 MetaGPTは、人間のソフトウェア開発組織で用いられる標準作業手順書(SOP: Standard Operating Procedures)をLLMエージェントの協調プロトコルとしてコード化する...

📄 論文解説: ReAct — LLMにおける推論と行動の統合

論文概要(Abstract) 本記事は ReAct: Synergizing Reasoning and Acting in Language Models の解説記事です。 ReActは、大規模言語モデル(LLM)に推論トレース(Thought)とタスク固有の行動(Action)を交互に生成させるフレームワークである。従来のChain-of-Thought(CoT)が推論のみを行い、行...

✍️ OpenAI解説: Testing Agent Skills Systematically — AIエージェントのスキル評価を体系化する

ブログ概要(Summary) 本記事は Testing Agent Skills Systematically with Evals の解説記事です。 OpenAI開発者ブログ「Testing Agent Skills Systematically with Evals」は、AIエージェントが備える個々の スキル(skill) を体系的にテストするためのフレームワークを提示している。従来...

✍️ LangChain解説: Building LangGraph — エージェントランタイムをFirst Principlesで設計する

ブログ概要(Summary) 本記事は Building LangGraph: Designing an Agent Runtime from First Principles の解説記事です。 この記事は Zenn記事: LangGraph v1.1ステートマシンのドメインモデリングとテスト駆動設計 の深掘りです。 LangGraphは、LLMエージェントを本番環境で運用するためのフ...