本記事は arXiv:2309.15025 (FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance) の解説記事です。 論文概要(Abstract) FrugalGPTは、LLMのAPI利用コストを削減しながら性能を維持・向上させる3つの相補的戦略を提案する。著者...
本記事は ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models(Xu et al., 2023)の解説記事です。 論文概要(Abstract) ReWOO(Reasoning WithOut Observation)は、Augmented Language Model(A...
本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。 ブログ概要(Summary) Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...
論文概要(Abstract) 本論文は、従来の静的・単一ターン型RAG(Retrieval-Augmented Generation)の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...
本記事は XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力を文脈自由文法(CFG)で制約する手法は柔軟性が高いが、トークンごとの文法検証に計算コストがかかる問題があった。著者らは、語彙全体を「文脈...
本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。 論文概要(Abstract) Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang(OpenAI, 2024)は、LLMがコンテキストウィンドウ内のすべてのテ...
本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。 論文概要(Abstract) RouteLLMは、ユーザークエリに対して強モデル(高精度・高コスト)と弱モデル(低精度・低コスト)のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...
本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity (arXiv:2404.19756) の解説記事です。 論文概要(Abstract) Adaptive-RAGは、クエリの複雑度に基づいてRAGの検索戦略を動的に選択するフレー...
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(arxiv:2311.04934) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等)...
本記事は Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models(Zhou et al., ICML 2024)の解説記事です。 論文概要(Abstract) LATS(Language Agent Tree Search)は、モンテカルロ木探索(MCTS)をLLMエージェント...