本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。 論文概要(Abstract) Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang(OpenAI, 2024)は、LLMがコンテキストウィンドウ内のすべてのテ...
本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。 論文概要(Abstract) RouteLLMは、ユーザークエリに対して強モデル(高精度・高コスト)と弱モデル(低精度・低コスト)のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...
本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity (arXiv:2404.19756) の解説記事です。 論文概要(Abstract) Adaptive-RAGは、クエリの複雑度に基づいてRAGの検索戦略を動的に選択するフレー...
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(arxiv:2311.04934) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等)...
本記事は Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models(Zhou et al., ICML 2024)の解説記事です。 論文概要(Abstract) LATS(Language Agent Tree Search)は、モンテカルロ木探索(MCTS)をLLMエージェント...
本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) 高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value(KV)キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...
論文概要(Abstract) LaRA(Benchmarking Retrieval-Augmented Generation and Long-Context LLMs)は、RAG(Retrieval-Augmented Generation)とLong-Context LLM(LC-LLM)を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...
本記事は MMTEB: Massive Multilingual Text Embedding Benchmark(arxiv:2502.13595) の解説記事です。 論文概要(Abstract) テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら(2025)はこの課題に対し、コミ...
本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks(arxiv:2601.06007) の解説記事です。 論文概要(Abstract) 本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...
本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。 論文概要(Abstract) syftr(Study Your Flow To Reason)は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...