- 📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク
- 📄 EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク
- ✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価
- 📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析
- 📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較
✍️ 参考図書まとめ
機械学習エンジニア(MLE)とデータサイエンティスト(DS)向けの本を紹介。ちなみにAmazon評価信者!!!それぞれの本を恐れ多くも、MLEとDSにオススメ度を5段階評価を表しいます。書籍自体の良し悪しを評価しているのでは決してありません。 機械学習 基礎 ★★☆☆☆: 多変量解析入門――線形から非線形へ * 教科書的に最高な本。学生ならおススメしたい。働いてからは辞書にな...