最近の更新
- 📄 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション
- ✍️ Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化
- 📄 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン
- 📄 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化
- 📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention