📄 SIGCOMM 2024論文解説: CacheGen — KVキャッシュ圧縮・ストリーミングによるLLM高速化

本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving（arxiv:2310.07240）の解説記事です。論文概要（Abstract） CacheGenは、LLMサービングにおけるコンテキスト読み込み遅延を削減するシステムである。長大なコンテキスト（ドキュメント、F...

24/02/2026 blog paper

KV-cache compression streaming +2

✍️ MLSys 2024 Best Paper解説: AWQ — 活性化ベース重み量子化でLLMを4bitに圧縮

本記事は arXiv:2306.00978 の解説記事です。論文概要（Abstract）著者らは、LLMの低ビット重み量子化手法AWQ（Activation-aware Weight Quantization）を提案している。中核的な観察として、全ての重みが等しく重要ではなく、活性化の大きさに基づいて重みの約1%が「重要（salient）」であることを発見した。これらの重要チャネルを...

24/02/2026 blog paper

quantization AWQ LLM +5

📄 ICML 2025論文解説: Flexible and Efficient Grammar-Constrained Decoding

本記事は Flexible and Efficient Grammar-Constrained Decoding (arXiv:2502.05111) の解説記事です。論文概要（Abstract） LLMの構造化出力を文脈自由文法（CFG）で保証する文法制約付きデコーディング（GCD: Grammar-Constrained Decoding）は、デコードの各ステップで「CFGに従わな...

24/02/2026 blog paper

structured-output constrained-decoding context-free-grammar +3

✍️ Voyage AI解説: Voyage 4 — MoEアーキテクチャと共有Embedding空間による次世代テキスト埋め込み

本記事は Voyage AI Blog: The Voyage 4 model family: shared embedding space with MoE architecture の解説記事です。ブログ概要（Summary） Voyage AIは2026年1月にVoyage 4シリーズを発表した。同シリーズは業界初の共有Embedding空間を実現し、異なるサイズのモデル間で互換...

24/02/2026 blog tech_blog

embedding MoE Voyage +4

✍️ SqueezeBits解説: llguidance vs XGrammar — vLLM/SGLangでの構造化出力ベンチマーク

本記事は Guided Decoding Performance on vLLM and SGLang (SqueezeBits Tech Blog) の解説記事です。ブログ概要（Summary） SqueezeBitsは、LLM推論の最適化に特化した企業である。本ブログ記事では、構造化出力の2大文法バックエンド（llguidanceとXGrammar）を、2大推論フレームワーク（vL...

24/02/2026 blog tech_blog

structured-output constrained-decoding llguidance +5

✍️ Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク

ブログ概要（Summary） Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した（arXiv: 2411.03538）。著者ら（Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...

24/02/2026 blog tech_blog

RAG long-context LLM +2

✍️ サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類

本記事は Efficient Inference for Large Reasoning Models: A Survey (arXiv:2501.12599) の解説記事です。論文概要（Abstract）本サーベイは、OpenAI o1やDeepSeek R1に代表される大規模推論モデル（LRM: Large Reasoning Models）の効率的推論手法を体系的に分類したもの...

24/02/2026 blog paper

reasoning-model efficient-inference budget-tokens +7

📄 論文解説: Lost in the Middle — LLMはロングコンテキストの中間情報を見落とす

本記事は Lost in the Middle: How Language Models Use Long Contexts の解説記事です。論文概要（Abstract） Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang（Stanford University / Meta AI, 2023）は、ロングコンテキストを入力可能...

24/02/2026 blog paper

context-window long-context RAG +3

📄 NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現

本記事は arXiv:2401.18079 の解説記事です。論文概要（Abstract） LLMの長コンテキスト推論では、KVキャッシュのメモリ消費が主要なボトルネックとなる。著者らはKVキャッシュを低ビット数値形式に量子化する手法KVQuantを提案している。Per-Channel Key量子化、Pre-RoPE Key量子化、非一様量子化（NUKVQuant）、Dense-and-...

24/02/2026 blog paper

KV-cache quantization LLM +5

📄 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有

本記事は SGLang: Efficiently Programming Large Language Models using SGLang（arxiv:2312.07104）の解説記事です。論文概要（Abstract） SGLangは、複雑なLLMプログラム（マルチコール生成、プロンプトテンプレート、制御フロー、構造化出力）を効率的に実行するためのシステムである。フロントエンド言...

24/02/2026 blog paper

SGLang RadixAttention KV-cache +2

1
...
62
63
64
...
103
63 / 103