Home
0h-n0 TechBLog
キャンセル

✍️ Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク

ブログ概要(Summary) Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した(arXiv: 2411.03538)。著者ら(Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...

✍️ サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類

本記事は Efficient Inference for Large Reasoning Models: A Survey (arXiv:2501.12599) の解説記事です。 論文概要(Abstract) 本サーベイは、OpenAI o1やDeepSeek R1に代表される大規模推論モデル(LRM: Large Reasoning Models)の効率的推論手法を体系的に分類したもの...

📄 NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現

本記事は arXiv:2401.18079 の解説記事です。 論文概要(Abstract) LLMの長コンテキスト推論では、KVキャッシュのメモリ消費が主要なボトルネックとなる。著者らはKVキャッシュを低ビット数値形式に量子化する手法KVQuantを提案している。Per-Channel Key量子化、Pre-RoPE Key量子化、非一様量子化(NUKVQuant)、Dense-and-...

📄 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有

本記事は SGLang: Efficiently Programming Large Language Models using SGLang(arxiv:2312.07104) の解説記事です。 論文概要(Abstract) SGLangは、複雑なLLMプログラム(マルチコール生成、プロンプトテンプレート、制御フロー、構造化出力)を効率的に実行するためのシステムである。フロントエンド言...

✍️ Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる

本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。 ブログ概要(Summary) Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...

📄 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ

論文概要(Abstract) 本論文は、従来の静的・単一ターン型RAG(Retrieval-Augmented Generation)の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...

📄 論文解説: XGrammar — 語彙分割とキャッシュによる高速構造化出力エンジン

本記事は XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力を文脈自由文法(CFG)で制約する手法は柔軟性が高いが、トークンごとの文法検証に計算コストがかかる問題があった。著者らは、語彙全体を「文脈...