- ✍️ NVIDIA技術ブログ解説: Mastering LLM Techniques - 推論最適化の実践ガイド
- 📄 OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化
- 📄 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論
- 📄 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化
- 📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
お世話になっております。おばんどす。現在、youtubeの教育コンテンツの成長がすさまじく、機械学習全般のコンテンツも豊富にあります。ここでは、私が登録している機械学習系のYoutube channelを紹介していきます。非常にボリューミーなので、すべてを確認するというスタンスではなく、興味がある動画をピックアップして、さらっと確認した方が良いです。(1.5倍速推奨)別の記事で、おすすめサ...