本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。 論文概要(Abstract) MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...
本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力(Structured Output)は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...
本記事は arXiv:2501.00353 “Don’t Do RAG: When Cache-Augmented Generation is Better Than Retrieval-Augmented Generation” の解説記事です。 論文概要(Abstract) Retrieval-Augmented Generation(RAG)はLLMに外部知識を接続する標準的アプロ...
本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。 論文概要(Abstract) Bsharat, Myrzakhan, Shen(MBZUAI, 2024)は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...
本記事は Reflexion: Language Agents with Verbal Reinforcement Learning(Shinn et al., NeurIPS 2023)の解説記事です。 論文概要(Abstract) Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...
本記事は arXiv:2412.13746 の解説記事です。 論文概要 Jinらは、Retrieval-Augmented Generation(RAG)における報酬モデル(Reward Model, RM)の評価に特化した初のベンチマークRAG-RewardBenchを提案した。既存のRM評価ベンチマーク(RewardBenchなど)は汎用タスクを対象としており、RAG固有の課題(複数...
本記事は EMNLP 2025 Industry Track の解説記事です。 関連するZenn記事: LangGraph×Claude Sonnet 4.6でインラインLLM-as-Judge品質ゲートを組み込むRAG実装 論文概要 「Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards」は、Vectaraの研...
本記事は AWS Machine Learning Blog の解説記事です。 ブログ概要 AWSは、Amazon Bedrock Model EvaluationにLLM-as-a-Judge機能を統合し、RAGパイプラインを含むLLMアプリケーションの品質評価を自動化する手法を公開した。AWSは「人手評価と比較して最大98%のコスト削減を実現しつつ、faithfulness・help...
本記事は arXiv:2502.09760 の解説記事です。 論文概要(Abstract) Xiongらは、LLM-as-JudgeがRAG(Retrieval-Augmented Generation)の評価において系統的エラーを示すことを実証的に明らかにした。Citation Recall(引用再現率)、Citation Precision(引用適合率)、Conflicting In...
本記事は arXiv:2503.12879 の解説記事です。 論文概要(Abstract) Skevaki, Domazakis, Tassiulas, Koutsopoulos (2025) は、RAG(Retrieval-Augmented Generation)パイプラインの品質評価において、どのLLMをJudgeとして使うべきかを体系的に比較した研究である。GPT-4o、GPT-...