- 📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク
- 📄 EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク
- ✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価
- 📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析
- 📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較
カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化 論文概要 AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning (NeurIPS 2024) は、Stanford University と Amazon によるLLMエージェントのツール使用能力を 対比推論 で最適化す...