- 📄 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション
- ✍️ Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化
- 📄 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン
- 📄 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化
- 📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
本記事は arXiv:2307.16789 の解説記事です。 論文概要(Abstract) Qin, Liang, Ye ら (2023) は、LLMに大量のReal-world APIを使いこなさせるための学習フレームワーク ToolLLM を提案している。RapidAPIプラットフォームから16,000以上のRESTful APIを収集し、49,000件の命令-API呼び出しペアから...