Home
0h-n0 TechBLog
キャンセル

✍️ NVIDIA技術ブログ解説: LLM推論最適化の全体像 — KVキャッシュからSpeculative Decodingまで

本記事は Mastering LLM Techniques: Inference Optimization (NVIDIA Developer Blog) の解説記事です。 ブログ概要(Summary) NVIDIAのShashank VermaとNeal Vaidyaが2023年11月に公開した技術ブログで、LLM推論の高速化・効率化技術を体系的にまとめている。Prefill(入力処理...

📄 論文解説: CacheGen — KVキャッシュ圧縮とストリーミングで長文コンテキストのLLM推論を高速化

本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving (arXiv:2401.12191) の解説記事です。 論文概要(Abstract) CacheGenは、LLM推論における長文コンテキストのKVキャッシュを圧縮・シリアライズし、ネットワーク越しに転送・再...

📄 ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs

本記事は A Unified Approach to Routing and Cascading for LLMs (ICML 2025, arXiv:2410.10347) の解説記事です。 論文概要(Abstract) 本論文は、ETH ZurichのJasper Dekoninck、Maximilian Baader、Martin Vechevらが発表し、ICML 2025に採択さ...

📄 論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference (arXiv:2407.00079) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト間で共有されるテキストセグメント(システムプロンプト、参照ドキュメント等)のattention sta...

📄 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク

本記事は RouteLLM: Learning to Route LLMs with Preference Data (arXiv:2406.18665) の解説記事です。 論文概要(Abstract) RouteLLMは、LMSYSチーム(Chatbot Arenaの開発元)が提案したLLMルーティングフレームワークである。複数のLLMが利用可能な環境において、リクエストごとに「強モデ...