- 📄 ICML 2025論文解説: Auditing Prompt Caching in Language Model APIs — プロバイダのキャッシュ実装を統計的に暴く
- ✍️ NVIDIA TensorRT-LLM解説: KV Cache Reuse最適化 — 優先度制御とイベントAPIによる推論高速化
- 📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ階層管理によるコスト50%削減
- ✍️ Claude Code設計思想解説: Prompt Caching Is Everything — キャッシュファーストなエージェント設計
- 📄 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュ戦略の実証評価
本記事は Auditing Prompt Caching in Language Model APIs (ICML 2025) の解説記事です。 論文概要(Abstract) 本論文は、プロンプトキャッシュが広く導入されたLLM APIにおいて、キャッシュの存在がタイミングサイドチャネルを生み出し、ユーザー間のプライバシーリスクに繋がる可能性を実証的に検証した研究である。著者らは17のL...