Home
0h-n0 TechBLog
キャンセル

✍️ Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる

本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。 ブログ概要(Summary) Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...

📄 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ

論文概要(Abstract) 本論文は、従来の静的・単一ターン型RAG(Retrieval-Augmented Generation)の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...

📄 論文解説: XGrammar — 語彙分割とキャッシュによる高速構造化出力エンジン

本記事は XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力を文脈自由文法(CFG)で制約する手法は柔軟性が高いが、トークンごとの文法検証に計算コストがかかる問題があった。著者らは、語彙全体を「文脈...

📄 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる

本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。 論文概要(Abstract) Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang(OpenAI, 2024)は、LLMがコンテキストウィンドウ内のすべてのテ...

📄 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減

本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。 論文概要(Abstract) RouteLLMは、ユーザークエリに対して強モデル(高精度・高コスト)と弱モデル(低精度・低コスト)のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...

📄 MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(arxiv:2311.04934) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等)...