本記事は Long Context vs. RAG for LLMs: An Evaluation and Revisits の解説記事です。 論文概要(Abstract) 長文脈LLM(LC-LLM)とRAG(Retrieval-Augmented Generation)のどちらが知識集約型タスクに適しているかを、制御された実験で体系的に比較した研究である。著者らは8つのLLMと4つの...
本記事は Context Engineering for AI Agents: Lessons from Building Manus の解説記事です。 ブログ概要(Summary) ManusチームのYichao ‘Peak’ Ji氏が、AIエージェントフレームワークを4度再構築する過程で得たContext Engineeringの実践的教訓を共有したエンジニアリングブログ記事である。...
本記事は Benchmarking Multi-Agent LLM Architectures for Financial Document Processing の解説記事です。 論文概要(Abstract) 金融文書処理(10-Kファイリング、決算発表トランスクリプト、財務テーブル等)における複数のマルチエージェントLLMアーキテクチャを体系的にベンチマークした研究である。著者らは逐...
本記事は Context Length Alone Hurts LLM Performance Despite Perfect Retrieval の解説記事です。 論文概要(Abstract) LLMの質問応答タスクにおけるコンテキスト長の影響を、検索品質を制御した実験で調査した研究である。著者らは必要な情報を直接コンテキストに挿入し(完全な検索を保証)、コンテキスト長の影響を検索品質...
本記事は LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models の解説記事です。 論文概要(Abstract) LLMLinguaは、小型言語モデル(LLaMA-7B等)を圧縮器として使用し、大型LLM(GPT-4等)に送信するプロンプトを最大20倍圧縮する手法である。著者らは、...
本記事は Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference(ICML 2024)の解説記事です。 論文概要(Abstract) Dynamic Memory Compression(DMC)は、Transformerの推論時にKVキャッシュをオンラインで動的に圧縮する手法である。著者らは、アテン...
本記事は Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations の解説記事です。 論文概要(Abstract) 本論文は、長期会話における会話履歴の管理手法として「圧縮メモリ(Compressive Memory)」を提案している。...
本記事は Effective Context Engineering for AI Agents(Anthropic Engineering Blog, 2025年9月29日公開)の解説記事です。 ブログ概要(Summary) Anthropicの応用AIチーム(Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield)が...
本記事は RULER: What’s the Real Context Size of Your Long-Context Language Models? の解説記事です。 論文概要(Abstract) 長文脈LLMの性能評価として広く使われるNeedle-in-a-Haystack(NIAH)テストは、単一の事実検索しか測定しておらず、モデルの実際の長文脈処理能力を過大評価する。著者...
本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) MemGPTは、オペレーティングシステム(OS)の仮想メモリ階層の設計をLLMのコンテキスト管理に応用した手法である。著者らは、LLMのコンテキストウィンドウを「メインメモリ」、外部ストレージを「ディスク」と見なし、LLM自身が関数呼び出しを通じて...