本記事は A Unified Approach to Routing and Cascading for LLMs (ICML 2025, arXiv:2410.10347) の解説記事です。 論文概要(Abstract) 本論文は、ETH ZurichのJasper Dekoninck、Maximilian Baader、Martin Vechevらが発表し、ICML 2025に採択さ...
本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2405.14532) の解説記事です。 論文概要(Abstract) SGLang(Structured Generation Language)は、LLMの構造化された推論プログラムを効率的に実行するためのフレームワークで...
本記事は FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance (arXiv:2305.14895) の解説記事です。 論文概要(Abstract) FrugalGPTは、Stanford大学のLingjiao Chen、Matei Zaharia、James Z...
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference (arXiv:2407.00079) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト間で共有されるテキストセグメント(システムプロンプト、参照ドキュメント等)のattention sta...
本記事は RouteLLM: Learning to Route LLMs with Preference Data (arXiv:2406.18665) の解説記事です。 論文概要(Abstract) RouteLLMは、LMSYSチーム(Chatbot Arenaの開発元)が提案したLLMルーティングフレームワークである。複数のLLMが利用可能な環境において、リクエストごとに「強モデ...
本記事は S-LoRA: Serving Thousands of Concurrent LoRA Adapters(arXiv 2023)の解説記事です。 論文概要(Abstract) S-LoRAは、単一のGPUサーバ上で数千のLoRA(Low-Rank Adaptation)アダプタを同時にサービングするシステムである。著者らは、KVキャッシュとLoRAアダプタ重みの両方をページン...
本記事は Introducing the next generation of AI inference, powered by llm-d(Google Cloud Blog, 2025年5月21日)の解説記事です。 ブログ概要(Summary) Google CloudのMark Lohmeyer(VP, AI and Computing Infrastructure)とGabe M...
本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving(arXiv 2024)の解説記事です。 論文概要(Abstract) DistServeは、LLM推論のPrefill(プロンプト処理)とDecode(トークン生成)を物理的に異なるG...
本記事は Scaling LLM Inference: Innovations in Tensor Parallelism, Context Parallelism, and Expert Parallelism(Meta Engineering Blog, 2025年10月17日)の解説記事です。 ブログ概要(Summary) MetaのAI Researchチーム(Cen Zhao,...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention(SOSP 2023)の解説記事です。 論文概要(Abstract) 本論文は、LLMサービングにおけるKVキャッシュのメモリ管理問題に対して、OSの仮想メモリとページング機構に着想を得たPagedAttentionアル...