論文概要 本記事は https://arxiv.org/abs/2510.26835 の解説記事です。 LLMサービングにおけるセマンティックキャッシュは、類似クエリの再計算を回避しレイテンシとコストを削減する手法として広く採用されているが、従来の均一キャッシュポリシー(固定閾値・固定TTL)は、異種ワークロードに対して深刻な非効率を生む。著者らは、クエリカテゴリごとに類似度閾値・TTL...
本記事は https://arxiv.org/abs/2602.13165 の解説記事です。 論文概要(Abstract) セマンティックキャッシュはLLM推論のコストとレイテンシを削減する有力な手法だが、固定閾値による類似度判定では「保守的すぎてヒット率が低い」か「積極的すぎて誤った応答を返す」というトレードオフが避けられない。著者らは、2層キャッシュアーキテクチャ(Static/Dy...
本記事は KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems の解説記事です。 論文概要(Abstract) KVCOMMは、マルチエージェントLLMシステムにおいて、エージェント間で重複するコンテキストのKVキャッシュを効率的に共有・再利用するフレ...
本記事は ServerlessLLM: Low-Latency Serverless Inference for Large Language Models の解説記事です。 論文概要(Abstract) LLMサービングにおいて、モデルの切り替え(ロード/アンロード)はコールドスタート問題を引き起こす。LLaMA-2-70Bのチェックポイント読み込みには従来60秒以上を要し、これがスケ...
本記事は Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live の解説記事です。 論文概要(Abstract) LLMを用いたエージェントシステムでは、モデル推論とツール実行(Web検索、コード実行、API呼び出しなど)が交互に繰り返される。従来のLLM推論サー...
本記事は TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents の解説記事です。 論文概要(Abstract) LLMエージェントの強化学習ベースのPost-Training(RLHF/GRPO等)では、外部ツール呼び出し(コード実行、API呼び出し、データベースクエリ等)がrollout生成の主要なボトルネッ...
本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。 論文概要(Abstract) LLMサービングにおいて、複数インスタンスへのリクエスト分配は従来のロードバランサ(round-robin、least-connections等)では不十分である。著者らは、リクエストをKVキャッシュごとインス...
本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving(OSDI 2024)の解説記事です。 論文概要(Abstract) LLM推論は2つのフェーズ(prefill: プロンプト処理、decode: トークン生成)から構成されるが、両フェ...
本記事は GPTCache: An Open-Source Semantic Cache for LLM Applications の解説記事です。 論文概要(Abstract) LLMへのAPIリクエストには高いレイテンシとコストが伴う。著者らは、過去のクエリ-レスポンスペアを蓄積し、新規クエリに対して意味的に類似した過去の応答を返すセマンティックキャッシュシステムGPTCacheを提...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention(SOSP 2023)の解説記事です。 論文概要(Abstract) LLM推論においてGPU VRAMの60〜80%はKV(Key-Value)キャッシュに消費されるが、既存システムでは内部断片化・外部断片化・予約の過...