📄 論文解説: CacheGen — KVキャッシュ圧縮とストリーミングで長文コンテキストのLLM推論を高速化

本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving (arXiv:2401.12191) の解説記事です。論文概要（Abstract） CacheGenは、LLM推論における長文コンテキストのKVキャッシュを圧縮・シリアライズし、ネットワーク越しに転送・再...

03/05/2026 blog paper

KV-cache compression LLM-inference +8

📄 論文解説: Mixture-of-Agents — 複数LLM協調による品質向上フレームワーク

本記事は Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.19512) の解説記事です。論文概要（Abstract） Mixture-of-Agents（MoA）は、Together AIのJunlin Wang、Jue Wang、Ben Athiwaratkun らが2024年に発表した...

03/05/2026 blog paper

LLM multi-model ensemble +3

📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ階層管理でLLM推論コストを最大69%削減

本記事は Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention (arXiv:2404.14619) の解説記事です。論文概要（Abstract） CachedAttentionは、マルチターン会話におけるLLM推論コストを削減するため、過去ター...

03/05/2026 blog paper

KV-cache LLM-inference cost-optimization +7

📄 論文解説: PagedAttention — LLM推論のKVキャッシュメモリ管理を変革した仮想メモリ方式

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。論文概要（Abstract） PagedAttentionは、LLM推論におけるKVキャッシュのメモリ管理にOSの仮想メモリ（ページング）方式を適用した手...

03/05/2026 blog paper

KV-cache LLM-inference vLLM +8

📄 ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs

本記事は A Unified Approach to Routing and Cascading for LLMs (ICML 2025, arXiv:2410.10347) の解説記事です。論文概要（Abstract）本論文は、ETH ZurichのJasper Dekoninck、Maximilian Baader、Martin Vechevらが発表し、ICML 2025に採択さ...

03/05/2026 blog paper

LLM routing cascading +4

📄 論文解説: SGLang — RadixAttentionによるLLMプレフィックスキャッシュの自動最適化

本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2405.14532) の解説記事です。論文概要（Abstract） SGLang（Structured Generation Language）は、LLMの構造化された推論プログラムを効率的に実行するためのフレームワークで...

03/05/2026 blog paper

prompt-caching KV-cache LLM-inference +7

📄 論文解説: FrugalGPT — LLMカスケードによるコスト98%削減フレームワーク

本記事は FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance (arXiv:2305.14895) の解説記事です。論文概要（Abstract） FrugalGPTは、Stanford大学のLingjiao Chen、Matei Zaharia、James Z...

03/05/2026 blog paper

LLM cost-optimization cascade +3

📄 論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference (arXiv:2407.00079) の解説記事です。論文概要（Abstract） Prompt Cacheは、LLM推論においてプロンプト間で共有されるテキストセグメント（システムプロンプト、参照ドキュメント等）のattention sta...

03/05/2026 blog paper

prompt-caching KV-cache LLM-inference +6

📄 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク

本記事は RouteLLM: Learning to Route LLMs with Preference Data (arXiv:2406.18665) の解説記事です。論文概要（Abstract） RouteLLMは、LMSYSチーム（Chatbot Arenaの開発元）が提案したLLMルーティングフレームワークである。複数のLLMが利用可能な環境において、リクエストごとに「強モデ...

03/05/2026 blog paper

LLM routing model-selection +3

📄 論文解説: S-LoRA — 数千のLoRAアダプタを同時サービングするメモリ管理手法

本記事は S-LoRA: Serving Thousands of Concurrent LoRA Adapters（arXiv 2023）の解説記事です。論文概要（Abstract） S-LoRAは、単一のGPUサーバ上で数千のLoRA（Low-Rank Adaptation）アダプタを同時にサービングするシステムである。著者らは、KVキャッシュとLoRAアダプタ重みの両方をページン...

02/05/2026 blog paper

S-LoRA LoRA LLM +5

1
...
43
44
45
...
151
44 / 151