📄 論文解説: Category-Aware Semantic Caching — 異種LLMワークロードのためのカテゴリ別キャッシュ最適化

論文概要本記事は https://arxiv.org/abs/2510.26835 の解説記事です。 LLMサービングにおけるセマンティックキャッシュは、類似クエリの再計算を回避しレイテンシとコストを削減する手法として広く採用されているが、従来の均一キャッシュポリシー（固定閾値・固定TTL）は、異種ワークロードに対して深刻な非効率を生む。著者らは、クエリカテゴリごとに類似度閾値・TTL...

19/05/2026 blog paper

LLM semantic-cache heterogeneous-workload +2

📄 論文解説: Krites — 非同期検証によるセマンティックキャッシュの精度と再利用率の両立

本記事は https://arxiv.org/abs/2602.13165 の解説記事です。論文概要（Abstract）セマンティックキャッシュはLLM推論のコストとレイテンシを削減する有力な手法だが、固定閾値による類似度判定では「保守的すぎてヒット率が低い」か「積極的すぎて誤った応答を返す」というトレードオフが避けられない。著者らは、2層キャッシュアーキテクチャ（Static/Dy...

19/05/2026 blog paper

LLM semantic-cache verification +2

📄 NeurIPS 2025論文解説: KVCOMM — マルチエージェントLLM推論のためのKVキャッシュ共有フレームワーク

本記事は KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems の解説記事です。論文概要（Abstract） KVCOMMは、マルチエージェントLLMシステムにおいて、エージェント間で重複するコンテキストのKVキャッシュを効率的に共有・再利用するフレ...

19/05/2026 blog paper

LLM multi-agent KV-cache +2

📄 論文解説: ServerlessLLM — ローカリティ最適化によるLLMモデルロードの高速化

本記事は ServerlessLLM: Low-Latency Serverless Inference for Large Language Models の解説記事です。論文概要（Abstract） LLMサービングにおいて、モデルの切り替え（ロード/アンロード）はコールドスタート問題を引き起こす。LLaMA-2-70Bのチェックポイント読み込みには従来60秒以上を要し、これがスケ...

19/05/2026 blog paper

LLM serverless container +5

📄 論文解説: Continuum — KVキャッシュTTLによるマルチターンLLMエージェントの効率的スケジューリング

本記事は Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live の解説記事です。論文概要（Abstract） LLMを用いたエージェントシステムでは、モデル推論とツール実行（Web検索、コード実行、API呼び出しなど）が交互に繰り返される。従来のLLM推論サー...

19/05/2026 blog paper

LLM agent KV-cache +2

📄 論文解説: TVCACHE — LLMエージェント訓練のためのステートフルなツール値キャッシュ

本記事は TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents の解説記事です。論文概要（Abstract） LLMエージェントの強化学習ベースのPost-Training（RLHF/GRPO等）では、外部ツール呼び出し（コード実行、API呼び出し、データベースクエリ等）がrollout生成の主要なボトルネッ...

19/05/2026 blog paper

LLM agent cache +2

📄 論文解説: Llumnix — マルチインスタンスLLMサービングの動的スケジューリングとライブマイグレーション

本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。論文概要（Abstract） LLMサービングにおいて、複数インスタンスへのリクエスト分配は従来のロードバランサ（round-robin、least-connections等）では不十分である。著者らは、リクエストをKVキャッシュごとインス...

19/05/2026 blog paper

LLM load-balancing scheduling +5

📄 論文解説: DistServe — Prefill/Decode分離によるLLMサービングのGoodput最適化

本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving（OSDI 2024）の解説記事です。論文概要（Abstract） LLM推論は2つのフェーズ（prefill: プロンプト処理、decode: トークン生成）から構成されるが、両フェ...

19/05/2026 blog paper

LLM inference distributed-systems +5

📄 論文解説: GPTCache — LLM向けセマンティックキャッシュによる推論コスト削減

本記事は GPTCache: An Open-Source Semantic Cache for LLM Applications の解説記事です。論文概要（Abstract） LLMへのAPIリクエストには高いレイテンシとコストが伴う。著者らは、過去のクエリ-レスポンスペアを蓄積し、新規クエリに対して意味的に類似した過去の応答を返すセマンティックキャッシュシステムGPTCacheを提...

19/05/2026 blog paper

LLM semantic-cache Redis +4

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention（SOSP 2023）の解説記事です。論文概要（Abstract） LLM推論においてGPU VRAMの60〜80%はKV（Key-Value）キャッシュに消費されるが、既存システムでは内部断片化・外部断片化・予約の過...

19/05/2026 blog paper

LLM inference GPU +5

1
...
31
32
33
...
147
32 / 147