- 📄 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化
- 📄 論文解説: Fast Inference from Transformers via Speculative Decoding
- 📄 論文解説: Orca - Continuous Batchingで実現するLLM推論の高スループットサービング
- 📄 論文解説: Efficiently Programming Large Language Models using SGLang
- 📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
本記事は EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees (arXiv:2406.14066) の解説記事です。 論文概要(Abstract) 本論文は、Speculative Decodingの改良手法EAGLE-2を提案している。先行手法EAGLE-1(1層のAutoregressive He...