本記事は Mastering LLM Techniques: Inference Optimization (NVIDIA Developer Blog) の解説記事です。 ブログ概要(Summary) NVIDIAのShashank VermaとNeal Vaidyaが2023年11月に公開した技術ブログで、LLM推論の高速化・効率化技術を体系的にまとめている。Prefill(入力処理...
本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving (arXiv:2401.12191) の解説記事です。 論文概要(Abstract) CacheGenは、LLM推論における長文コンテキストのKVキャッシュを圧縮・シリアライズし、ネットワーク越しに転送・再...
本記事は Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.19512) の解説記事です。 論文概要(Abstract) Mixture-of-Agents(MoA)は、Together AIのJunlin Wang、Jue Wang、Ben Athiwaratkun らが2024年に発表した...
本記事は Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention (arXiv:2404.14619) の解説記事です。 論文概要(Abstract) CachedAttentionは、マルチターン会話におけるLLM推論コストを削減するため、過去ター...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。 論文概要(Abstract) PagedAttentionは、LLM推論におけるKVキャッシュのメモリ管理にOSの仮想メモリ(ページング)方式を適用した手...
本記事は A Unified Approach to Routing and Cascading for LLMs (ICML 2025, arXiv:2410.10347) の解説記事です。 論文概要(Abstract) 本論文は、ETH ZurichのJasper Dekoninck、Maximilian Baader、Martin Vechevらが発表し、ICML 2025に採択さ...
本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2405.14532) の解説記事です。 論文概要(Abstract) SGLang(Structured Generation Language)は、LLMの構造化された推論プログラムを効率的に実行するためのフレームワークで...
本記事は FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance (arXiv:2305.14895) の解説記事です。 論文概要(Abstract) FrugalGPTは、Stanford大学のLingjiao Chen、Matei Zaharia、James Z...
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference (arXiv:2407.00079) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト間で共有されるテキストセグメント(システムプロンプト、参照ドキュメント等)のattention sta...
本記事は RouteLLM: Learning to Route LLMs with Preference Data (arXiv:2406.18665) の解説記事です。 論文概要(Abstract) RouteLLMは、LMSYSチーム(Chatbot Arenaの開発元)が提案したLLMルーティングフレームワークである。複数のLLMが利用可能な環境において、リクエストごとに「強モデ...