- 📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク
- 📄 EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク
- ✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価
- 📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析
- 📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較
本記事は arXiv:2412.13746 の解説記事です。 論文概要 Jinらは、Retrieval-Augmented Generation(RAG)における報酬モデル(Reward Model, RM)の評価に特化した初のベンチマークRAG-RewardBenchを提案した。既存のRM評価ベンチマーク(RewardBenchなど)は汎用タスクを対象としており、RAG固有の課題(複数...