✍️ SqueezeBits解説: llguidance vs XGrammar — vLLM/SGLangでの構造化出力ベンチマーク

本記事は Guided Decoding Performance on vLLM and SGLang (SqueezeBits Tech Blog) の解説記事です。ブログ概要（Summary） SqueezeBitsは、LLM推論の最適化に特化した企業である。本ブログ記事では、構造化出力の2大文法バックエンド（llguidanceとXGrammar）を、2大推論フレームワーク（vL...

24/02/2026 blog tech_blog

structured-output constrained-decoding llguidance +5

✍️ Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク

ブログ概要（Summary） Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した（arXiv: 2411.03538）。著者ら（Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...

24/02/2026 blog tech_blog

RAG long-context LLM +2

✍️ サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類

本記事は Efficient Inference for Large Reasoning Models: A Survey (arXiv:2501.12599) の解説記事です。論文概要（Abstract）本サーベイは、OpenAI o1やDeepSeek R1に代表される大規模推論モデル（LRM: Large Reasoning Models）の効率的推論手法を体系的に分類したもの...

24/02/2026 blog paper

reasoning-model efficient-inference budget-tokens +7

📄 論文解説: Lost in the Middle — LLMはロングコンテキストの中間情報を見落とす

本記事は Lost in the Middle: How Language Models Use Long Contexts の解説記事です。論文概要（Abstract） Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang（Stanford University / Meta AI, 2023）は、ロングコンテキストを入力可能...

24/02/2026 blog paper

context-window long-context RAG +3

📄 NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現

本記事は arXiv:2401.18079 の解説記事です。論文概要（Abstract） LLMの長コンテキスト推論では、KVキャッシュのメモリ消費が主要なボトルネックとなる。著者らはKVキャッシュを低ビット数値形式に量子化する手法KVQuantを提案している。Per-Channel Key量子化、Pre-RoPE Key量子化、非一様量子化（NUKVQuant）、Dense-and-...

24/02/2026 blog paper

KV-cache quantization LLM +5

📄 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有

本記事は SGLang: Efficiently Programming Large Language Models using SGLang（arxiv:2312.07104）の解説記事です。論文概要（Abstract） SGLangは、複雑なLLMプログラム（マルチコール生成、プロンプトテンプレート、制御フロー、構造化出力）を効率的に実行するためのシステムである。フロントエンド言...

24/02/2026 blog paper

SGLang RadixAttention KV-cache +2

📄 論文解説: FrugalGPT — LLMカスケード・プロンプト適応・近似の3戦略で最大98%コスト削減

本記事は arXiv:2309.15025 (FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance) の解説記事です。論文概要（Abstract） FrugalGPTは、LLMのAPI利用コストを削減しながら性能を維持・向上させる3つの相補的戦略を提案する。著者...

24/02/2026 blog paper

LLM cost optimization cascade +4

📄 論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減

本記事は ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models（Xu et al., 2023）の解説記事です。論文概要（Abstract） ReWOO（Reasoning WithOut Observation）は、Augmented Language Model（A...

24/02/2026 blog paper

ReWOO ReAct LLM +7

✍️ Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる

本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。ブログ概要（Summary） Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...

24/02/2026 blog tech_blog

embedding fine-tuning RAG +4

📄 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ

論文概要（Abstract）本論文は、従来の静的・単一ターン型RAG（Retrieval-Augmented Generation）の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...

24/02/2026 blog paper

RAG agent LLM +2

1
...
61
62
63
...
102
62 / 102