Home
0h-n0 TechBLog
キャンセル

📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク

本記事は arXiv:2412.13746 の解説記事です。 論文概要 Jinらは、Retrieval-Augmented Generation(RAG)における報酬モデル(Reward Model, RM)の評価に特化した初のベンチマークRAG-RewardBenchを提案した。既存のRM評価ベンチマーク(RewardBenchなど)は汎用タスクを対象としており、RAG固有の課題(複数...

✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価

本記事は AWS Machine Learning Blog の解説記事です。 ブログ概要 AWSは、Amazon Bedrock Model EvaluationにLLM-as-a-Judge機能を統合し、RAGパイプラインを含むLLMアプリケーションの品質評価を自動化する手法を公開した。AWSは「人手評価と比較して最大98%のコスト削減を実現しつつ、faithfulness・help...

📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析

本記事は arXiv:2502.09760 の解説記事です。 論文概要(Abstract) Xiongらは、LLM-as-JudgeがRAG(Retrieval-Augmented Generation)の評価において系統的エラーを示すことを実証的に明らかにした。Citation Recall(引用再現率)、Citation Precision(引用適合率)、Conflicting In...

📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較

本記事は arXiv:2503.12879 の解説記事です。 論文概要(Abstract) Skevaki, Domazakis, Tassiulas, Koutsopoulos (2025) は、RAG(Retrieval-Augmented Generation)パイプラインの品質評価において、どのLLMをJudgeとして使うべきかを体系的に比較した研究である。GPT-4o、GPT-...

📄 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散

本記事は LLUMNIX: Dynamic Scheduling for Large Language Model Serving (arXiv:2401.11351) の解説記事です。 論文概要(Abstract) LLUMNIXは、LLM推論サービングクラスタにおいて実行中のリクエストをKVキャッシュごとGPUインスタンス間でライブマイグレーションする機構を提案した論文である。従来の...

📄 カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク

本記事は ICML 2025 に採択された論文の解説記事です。 論文概要(Abstract) Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling(ツール呼び出し)能力を体系的に評価するベンチマーク BFCL(Berkeley Function Calling Leaderboard) を提...

✍️ Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略

本記事は Anthropic公式ドキュメント: Prompt caching および Anthropic公式ブログ: Prompt caching with Claude の解説記事です。 ブログ概要(Summary) Anthropicが提供するPrompt Cachingは、Claude APIのリクエスト間で共通するプロンプトプレフィックスのKV(Key-Value)テンソルをサー...