- 📄 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション
- ✍️ Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化
- 📄 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン
- 📄 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化
- 📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 論文概要(Abstract) 著者ら(Alibaba Cloud)は、既存のLLMサービン...