- 📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法
- ✍️ NVIDIA Tech Blog解説: CUDA GraphsによるLlama.cpp推論の最適化 — カーネル起動オーバーヘッドの削減手法
- 📄 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能
- 📄 論文解説: PowerInfer — コンシューマGPUでLLM推論を最大11.69倍高速化するCPU-GPUハイブリッドエンジン
- 📄 論文解説: DeepSeek-V2 — MoEモデルのKVキャッシュを93.3%削減するMulti-head Latent Attention
📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法
本記事は Toward Efficient Inference for Mixture of Experts (NeurIPS 2024) の解説記事です。 論文概要(Abstract) 本論文は、MoE(Mixture-of-Experts)モデルの推論効率化に取り組んだ研究である。著者らは、言語モデリングと機械翻訳のワークロードを体系的に特性分析し、非効率性の原因を特定した上で、3つ...