最近の更新
- 📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ再利用でTTFT 2.8倍高速化
- 📄 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散
- 📄 カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク
- ✍️ Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略
- 📄 論文解説: Towards Optimizing the Costs of LLM Usage — 品質予測とLP緩和によるLLMコスト40-90%削減