本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) 高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value(KV)キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...
論文概要(Abstract) LaRA(Benchmarking Retrieval-Augmented Generation and Long-Context LLMs)は、RAG(Retrieval-Augmented Generation)とLong-Context LLM(LC-LLM)を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...
本記事は MMTEB: Massive Multilingual Text Embedding Benchmark(arxiv:2502.13595) の解説記事です。 論文概要(Abstract) テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら(2025)はこの課題に対し、コミ...
本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks(arxiv:2601.06007) の解説記事です。 論文概要(Abstract) 本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...
本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。 論文概要(Abstract) syftr(Study Your Flow To Reason)は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...
本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。 論文概要(Abstract) MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...
本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力(Structured Output)は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...
本記事は arXiv:2501.00353 “Don’t Do RAG: When Cache-Augmented Generation is Better Than Retrieval-Augmented Generation” の解説記事です。 論文概要(Abstract) Retrieval-Augmented Generation(RAG)はLLMに外部知識を接続する標準的アプロ...
本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。 論文概要(Abstract) Bsharat, Myrzakhan, Shen(MBZUAI, 2024)は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...
本記事は Reflexion: Language Agents with Verbal Reinforcement Learning(Shinn et al., NeurIPS 2023)の解説記事です。 論文概要(Abstract) Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...