- ✍️ Vespa公式解説: Matryoshka × Binary Quantization — ベクトル検索コストを64倍削減する実装手法
- 📄 ICML 2025論文解説: EPD Disaggregation — マルチモーダルモデルの推論を3ステージに分離して効率化
- ✍️ Qdrant公式解説: Binary Quantization — ベクトル検索を40倍高速化する量子化手法
- ✍️ Google Cloud公式ブログ解説: Cloud Runのstartup CPU boostでコールドスタートを最大50%削減
- 📄 論文解説: RAGシステムのEmbeddingストレージ最適化 — 量子化×次元削減の体系的評価
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論におけるTime-To-First-Token(TTFT)を削減するための手法である。プロンプト内に繰り返し現れる共通セグメント(システム指示、Few-shot例、ド...