Home
0h-n0 TechBLog
キャンセル

📄 ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs

本記事は A Unified Approach to Routing and Cascading for LLMs (ICML 2025, arXiv:2410.10347) の解説記事です。 論文概要(Abstract) 本論文は、ETH ZurichのJasper Dekoninck、Maximilian Baader、Martin Vechevらが発表し、ICML 2025に採択さ...

📄 論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference (arXiv:2407.00079) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト間で共有されるテキストセグメント(システムプロンプト、参照ドキュメント等)のattention sta...

📄 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク

本記事は RouteLLM: Learning to Route LLMs with Preference Data (arXiv:2406.18665) の解説記事です。 論文概要(Abstract) RouteLLMは、LMSYSチーム(Chatbot Arenaの開発元)が提案したLLMルーティングフレームワークである。複数のLLMが利用可能な環境において、リクエストごとに「強モデ...

📄 論文解説: S-LoRA — 数千のLoRAアダプタを同時サービングするメモリ管理手法

本記事は S-LoRA: Serving Thousands of Concurrent LoRA Adapters(arXiv 2023)の解説記事です。 論文概要(Abstract) S-LoRAは、単一のGPUサーバ上で数千のLoRA(Low-Rank Adaptation)アダプタを同時にサービングするシステムである。著者らは、KVキャッシュとLoRAアダプタ重みの両方をページン...

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention(SOSP 2023)の解説記事です。 論文概要(Abstract) 本論文は、LLMサービングにおけるKVキャッシュのメモリ管理問題に対して、OSの仮想メモリとページング機構に着想を得たPagedAttentionアル...