Home
0h-n0 TechBLog
キャンセル

📄 論文解説: RULER — Needle-in-a-Haystackを超えた長文脈LLMの真の限界を測るベンチマーク

本記事は RULER: What’s the Real Context Size of Your Long-Context Language Models? の解説記事です。 論文概要(Abstract) 長文脈LLMの性能評価として広く使われるNeedle-in-a-Haystack(NIAH)テストは、単一の事実検索しか測定しておらず、モデルの実際の長文脈処理能力を過大評価する。著者...

📄 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理アーキテクチャ

本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) MemGPTは、オペレーティングシステム(OS)の仮想メモリ階層の設計をLLMのコンテキスト管理に応用した手法である。著者らは、LLMのコンテキストウィンドウを「メインメモリ」、外部ストレージを「ディスク」と見なし、LLM自身が関数呼び出しを通じて...

📄 ICML 2024論文解説: KIVI — チューニング不要のKVキャッシュ2bit非対称量子化

本記事は KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache の解説記事です。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュに対するチューニング不要の2bit量子化手法である。著者らは、Key cacheとValue cacheの要素分布が根本的に異なることを発見し、Keyにはper-cha...

📄 論文解説: CacheBlend — RAG向けKVキャッシュ融合によるLLM推論高速化

本記事は CacheBlend: Fast Large Language Model Serving with Cached Knowledge Fusion の解説記事です。 論文概要(Abstract) CacheBlendは、RAG(Retrieval-Augmented Generation)パイプラインにおいて複数ドキュメントのKVキャッシュを個別に事前計算・保存し、推論時に選...

📄 NeurIPS 2024論文解説: SnapKV — 生成前にKVキャッシュの重要トークンを選択する手法

本記事は SnapKV: LLM Knows What You Are Looking for Before Generation の解説記事です。 論文概要(Abstract) SnapKVは、LLMの生成開始前にattentionパターンを分析し、KVキャッシュ内の重要なエントリのみを選択的に保持する手法である。著者らは、プロンプト末尾の「observation window」から各...

📄 論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。 論文概要(Abstract) PagedAttentionは、OSの仮想メモリにおけるページング機構をLLM推論のKVキャッシュ管理に応用したアテンションアルゴリズムである。著者らは、既存のLLMサー...

📄 論文解説: SGLang — RadixAttentionによるLLMプレフィックスキャッシュの自動再利用

本記事は SGLang: Efficient Execution of Structured Language Model Programs の解説記事です。 論文概要(Abstract) SGLang(Structured Generation Language)は、LLMプログラムの効率的な実行のために設計されたフロントエンドDSLとランタイムシステムである。著者らは、複数のLLM呼...

✍️ Anthropic公式ブログ解説: Code Execution with MCP — コード実行によるエージェント効率の98.7%トークン削減

本記事は https://www.anthropic.com/engineering/code-execution-with-mcp の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングブログ「Code Execution with MCP」(2025年11月4日公開)は、Model Context Protocol(MCP)のツール定義をコードAPI形式...

✍️ Google公式ブログ解説: Agent2Agent (A2A) プロトコル — エージェント間相互運用の新標準

本記事は https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/ の解説記事です。 ブログ概要(Summary) 2025年4月9日、GoogleはAgent2Agent(A2A)プロトコルを公式に発表した。A2Aは、異なるフレームワークやプロバイダで構築されたAIエージェント同士が安全に...

📄 NeurIPS 2024論文解説: iAgents — 情報非対称下でのマルチエージェント自律協調とInfoNavメカニズム

本記事は https://arxiv.org/abs/2406.14928 の解説記事です。 論文概要(Abstract) iAgents(Informative Multi-Agent Systems)は、情報非対称(Information Asymmetry)条件下でLLMマルチエージェントが自律的に協調タスクを遂行するためのフレームワークである。著者らは、各エージェントが関連する人...