本記事は RULER: What’s the Real Context Size of Your Long-Context Language Models? の解説記事です。 論文概要(Abstract) 長文脈LLMの性能評価として広く使われるNeedle-in-a-Haystack(NIAH)テストは、単一の事実検索しか測定しておらず、モデルの実際の長文脈処理能力を過大評価する。著者...
本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) MemGPTは、オペレーティングシステム(OS)の仮想メモリ階層の設計をLLMのコンテキスト管理に応用した手法である。著者らは、LLMのコンテキストウィンドウを「メインメモリ」、外部ストレージを「ディスク」と見なし、LLM自身が関数呼び出しを通じて...
本記事は KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache の解説記事です。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュに対するチューニング不要の2bit量子化手法である。著者らは、Key cacheとValue cacheの要素分布が根本的に異なることを発見し、Keyにはper-cha...
本記事は CacheBlend: Fast Large Language Model Serving with Cached Knowledge Fusion の解説記事です。 論文概要(Abstract) CacheBlendは、RAG(Retrieval-Augmented Generation)パイプラインにおいて複数ドキュメントのKVキャッシュを個別に事前計算・保存し、推論時に選...
本記事は SnapKV: LLM Knows What You Are Looking for Before Generation の解説記事です。 論文概要(Abstract) SnapKVは、LLMの生成開始前にattentionパターンを分析し、KVキャッシュ内の重要なエントリのみを選択的に保持する手法である。著者らは、プロンプト末尾の「observation window」から各...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。 論文概要(Abstract) PagedAttentionは、OSの仮想メモリにおけるページング機構をLLM推論のKVキャッシュ管理に応用したアテンションアルゴリズムである。著者らは、既存のLLMサー...
本記事は SGLang: Efficient Execution of Structured Language Model Programs の解説記事です。 論文概要(Abstract) SGLang(Structured Generation Language)は、LLMプログラムの効率的な実行のために設計されたフロントエンドDSLとランタイムシステムである。著者らは、複数のLLM呼...
本記事は https://www.anthropic.com/engineering/code-execution-with-mcp の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングブログ「Code Execution with MCP」(2025年11月4日公開)は、Model Context Protocol(MCP)のツール定義をコードAPI形式...
本記事は https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/ の解説記事です。 ブログ概要(Summary) 2025年4月9日、GoogleはAgent2Agent(A2A)プロトコルを公式に発表した。A2Aは、異なるフレームワークやプロバイダで構築されたAIエージェント同士が安全に...
本記事は https://arxiv.org/abs/2406.14928 の解説記事です。 論文概要(Abstract) iAgents(Informative Multi-Agent Systems)は、情報非対称(Information Asymmetry)条件下でLLMマルチエージェントが自律的に協調タスクを遂行するためのフレームワークである。著者らは、各エージェントが関連する人...