最近の更新
optimization 8
- 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化 29/03/2026
- NVIDIA Tech Blog解説: CUDA Graphsによるllama.cpp推論最適化 — カーネルローンチオーバーヘッドの体系的削減 29/03/2026
- MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference 20/03/2026
- BAIR Blog解説: The Shift from Models to Compound AI Systems — モノリシックモデルから複合AIへの転換 14/03/2026
- 論文解説: TextGrad — テキストによる自動微分でLLMパイプラインを最適化する 11/03/2026
- 論文解説: Prompt Cache — モジュラーKVキャッシュ再利用でLLM推論TTFTを3.5倍高速化 17/02/2026
- カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化 15/02/2026
- 論文解説: Large Language Models as Optimizers(OPRO) 15/02/2026