Home
0h-n0 TechBLog
キャンセル

✍️ SqueezeBits解説: llguidance vs XGrammar — vLLM/SGLangでの構造化出力ベンチマーク

本記事は Guided Decoding Performance on vLLM and SGLang (SqueezeBits Tech Blog) の解説記事です。 ブログ概要(Summary) SqueezeBitsは、LLM推論の最適化に特化した企業である。本ブログ記事では、構造化出力の2大文法バックエンド(llguidanceとXGrammar)を、2大推論フレームワーク(vL...

✍️ Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク

ブログ概要(Summary) Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した(arXiv: 2411.03538)。著者ら(Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...

✍️ サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類

本記事は Efficient Inference for Large Reasoning Models: A Survey (arXiv:2501.12599) の解説記事です。 論文概要(Abstract) 本サーベイは、OpenAI o1やDeepSeek R1に代表される大規模推論モデル(LRM: Large Reasoning Models)の効率的推論手法を体系的に分類したもの...

📄 NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現

本記事は arXiv:2401.18079 の解説記事です。 論文概要(Abstract) LLMの長コンテキスト推論では、KVキャッシュのメモリ消費が主要なボトルネックとなる。著者らはKVキャッシュを低ビット数値形式に量子化する手法KVQuantを提案している。Per-Channel Key量子化、Pre-RoPE Key量子化、非一様量子化(NUKVQuant)、Dense-and-...

📄 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有

本記事は SGLang: Efficiently Programming Large Language Models using SGLang(arxiv:2312.07104) の解説記事です。 論文概要(Abstract) SGLangは、複雑なLLMプログラム(マルチコール生成、プロンプトテンプレート、制御フロー、構造化出力)を効率的に実行するためのシステムである。フロントエンド言...

✍️ Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる

本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。 ブログ概要(Summary) Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...

📄 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ

論文概要(Abstract) 本論文は、従来の静的・単一ターン型RAG(Retrieval-Augmented Generation)の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...