本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving(arxiv:2310.07240) の解説記事です。 論文概要(Abstract) CacheGenは、LLMサービングにおけるコンテキスト読み込み遅延を削減するシステムである。長大なコンテキスト(ドキュメント、F...
本記事は arXiv:2306.00978 の解説記事です。 論文概要(Abstract) 著者らは、LLMの低ビット重み量子化手法AWQ(Activation-aware Weight Quantization)を提案している。中核的な観察として、全ての重みが等しく重要ではなく、活性化の大きさに基づいて重みの約1%が「重要(salient)」であることを発見した。これらの重要チャネルを...
本記事は Flexible and Efficient Grammar-Constrained Decoding (arXiv:2502.05111) の解説記事です。 論文概要(Abstract) LLMの構造化出力を文脈自由文法(CFG)で保証する文法制約付きデコーディング(GCD: Grammar-Constrained Decoding)は、デコードの各ステップで「CFGに従わな...
本記事は Voyage AI Blog: The Voyage 4 model family: shared embedding space with MoE architecture の解説記事です。 ブログ概要(Summary) Voyage AIは2026年1月にVoyage 4シリーズを発表した。同シリーズは業界初の共有Embedding空間を実現し、異なるサイズのモデル間で互換...
本記事は Guided Decoding Performance on vLLM and SGLang (SqueezeBits Tech Blog) の解説記事です。 ブログ概要(Summary) SqueezeBitsは、LLM推論の最適化に特化した企業である。本ブログ記事では、構造化出力の2大文法バックエンド(llguidanceとXGrammar)を、2大推論フレームワーク(vL...
ブログ概要(Summary) Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した(arXiv: 2411.03538)。著者ら(Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...
本記事は Efficient Inference for Large Reasoning Models: A Survey (arXiv:2501.12599) の解説記事です。 論文概要(Abstract) 本サーベイは、OpenAI o1やDeepSeek R1に代表される大規模推論モデル(LRM: Large Reasoning Models)の効率的推論手法を体系的に分類したもの...
本記事は Lost in the Middle: How Language Models Use Long Contexts の解説記事です。 論文概要(Abstract) Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang(Stanford University / Meta AI, 2023)は、ロングコンテキストを入力可能...
本記事は arXiv:2401.18079 の解説記事です。 論文概要(Abstract) LLMの長コンテキスト推論では、KVキャッシュのメモリ消費が主要なボトルネックとなる。著者らはKVキャッシュを低ビット数値形式に量子化する手法KVQuantを提案している。Per-Channel Key量子化、Pre-RoPE Key量子化、非一様量子化(NUKVQuant)、Dense-and-...
本記事は SGLang: Efficiently Programming Large Language Models using SGLang(arxiv:2312.07104) の解説記事です。 論文概要(Abstract) SGLangは、複雑なLLMプログラム(マルチコール生成、プロンプトテンプレート、制御フロー、構造化出力)を効率的に実行するためのシステムである。フロントエンド言...