最近の更新
- 📄 ICML 2025論文解説: Auditing Prompt Caching in Language Model APIs — プロバイダのキャッシュ実装を統計的に暴く
- ✍️ NVIDIA TensorRT-LLM解説: KV Cache Reuse最適化 — 優先度制御とイベントAPIによる推論高速化
- 📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ階層管理によるコスト50%削減
- ✍️ Claude Code設計思想解説: Prompt Caching Is Everything — キャッシュファーストなエージェント設計
- 📄 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュ戦略の実証評価