Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Benchmarking Agentic Workflow Generation — LLMワークフロー計画能力の体系的評価

論文概要(Abstract) 本記事は Benchmarking Agentic Workflow Generation(WorFBench)の解説記事です。 WorFBenchは、LLMエージェントが複雑なタスクを実行可能なワークフロー(有向非巡回グラフ: DAG)に分解する能力を体系的に評価するベンチマークである。著者らは、既存の評価フレームワークがシナリオの多様性やワークフロー構造...

📄 論文解説: MetaGPT -- SOPベースのマルチエージェント協調フレームワーク

論文概要(Abstract) 本記事は MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework の解説記事です。 MetaGPTは、人間のソフトウェア開発組織で用いられる標準作業手順書(SOP: Standard Operating Procedures)をLLMエージェントの協調プロトコルとしてコード化する...

📄 論文解説: ReAct — LLMにおける推論と行動の統合

論文概要(Abstract) 本記事は ReAct: Synergizing Reasoning and Acting in Language Models の解説記事です。 ReActは、大規模言語モデル(LLM)に推論トレース(Thought)とタスク固有の行動(Action)を交互に生成させるフレームワークである。従来のChain-of-Thought(CoT)が推論のみを行い、行...

✍️ OpenAI解説: Testing Agent Skills Systematically — AIエージェントのスキル評価を体系化する

ブログ概要(Summary) 本記事は Testing Agent Skills Systematically with Evals の解説記事です。 OpenAI開発者ブログ「Testing Agent Skills Systematically with Evals」は、AIエージェントが備える個々の スキル(skill) を体系的にテストするためのフレームワークを提示している。従来...

✍️ LangChain解説: Building LangGraph — エージェントランタイムをFirst Principlesで設計する

ブログ概要(Summary) 本記事は Building LangGraph: Designing an Agent Runtime from First Principles の解説記事です。 この記事は Zenn記事: LangGraph v1.1ステートマシンのドメインモデリングとテスト駆動設計 の深掘りです。 LangGraphは、LLMエージェントを本番環境で運用するためのフ...

📄 論文解説: Long Context vs. RAG — 8モデル×4リトリーバ×6ベンチマークによる体系的比較評価

本記事は Long Context vs. RAG for LLMs: An Evaluation and Revisits の解説記事です。 論文概要(Abstract) 長文脈LLM(LC-LLM)とRAG(Retrieval-Augmented Generation)のどちらが知識集約型タスクに適しているかを、制御された実験で体系的に比較した研究である。著者らは8つのLLMと4つの...

✍️ Manus Engineering解説: AIエージェントのためのContext Engineering — 本番環境で得た実践的教訓

本記事は Context Engineering for AI Agents: Lessons from Building Manus の解説記事です。 ブログ概要(Summary) ManusチームのYichao ‘Peak’ Ji氏が、AIエージェントフレームワークを4度再構築する過程で得たContext Engineeringの実践的教訓を共有したエンジニアリングブログ記事である。...

📄 論文解説: マルチエージェントLLMアーキテクチャの金融文書処理ベンチマーク — 4パターンの精度・コスト比較

本記事は Benchmarking Multi-Agent LLM Architectures for Financial Document Processing の解説記事です。 論文概要(Abstract) 金融文書処理(10-Kファイリング、決算発表トランスクリプト、財務テーブル等)における複数のマルチエージェントLLMアーキテクチャを体系的にベンチマークした研究である。著者らは逐...

📄 論文解説: Context Length Alone Hurts — 完全な検索でもコンテキスト長がLLM性能を劣化させる

本記事は Context Length Alone Hurts LLM Performance Despite Perfect Retrieval の解説記事です。 論文概要(Abstract) LLMの質問応答タスクにおけるコンテキスト長の影響を、検索品質を制御した実験で調査した研究である。著者らは必要な情報を直接コンテキストに挿入し(完全な検索を保証)、コンテキスト長の影響を検索品質...

📄 論文解説: LLMLingua — 小型LMによるプロンプト圧縮でAPI推論コストを削減する手法

本記事は LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models の解説記事です。 論文概要(Abstract) LLMLinguaは、小型言語モデル(LLaMA-7B等)を圧縮器として使用し、大型LLM(GPT-4等)に送信するプロンプトを最大20倍圧縮する手法である。著者らは、...