Home
0h-n0 TechBLog
キャンセル

📄 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ

本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。 論文概要(Abstract) MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...

📄 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク

本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力(Structured Output)は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...

📄 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。 論文概要(Abstract) Bsharat, Myrzakhan, Shen(MBZUAI, 2024)は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...

📄 NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント

本記事は Reflexion: Language Agents with Verbal Reinforcement Learning(Shinn et al., NeurIPS 2023)の解説記事です。 論文概要(Abstract) Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...

📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク

本記事は arXiv:2412.13746 の解説記事です。 論文概要 Jinらは、Retrieval-Augmented Generation(RAG)における報酬モデル(Reward Model, RM)の評価に特化した初のベンチマークRAG-RewardBenchを提案した。既存のRM評価ベンチマーク(RewardBenchなど)は汎用タスクを対象としており、RAG固有の課題(複数...

✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価

本記事は AWS Machine Learning Blog の解説記事です。 ブログ概要 AWSは、Amazon Bedrock Model EvaluationにLLM-as-a-Judge機能を統合し、RAGパイプラインを含むLLMアプリケーションの品質評価を自動化する手法を公開した。AWSは「人手評価と比較して最大98%のコスト削減を実現しつつ、faithfulness・help...

📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析

本記事は arXiv:2502.09760 の解説記事です。 論文概要(Abstract) Xiongらは、LLM-as-JudgeがRAG(Retrieval-Augmented Generation)の評価において系統的エラーを示すことを実証的に明らかにした。Citation Recall(引用再現率)、Citation Precision(引用適合率)、Conflicting In...

📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較

本記事は arXiv:2503.12879 の解説記事です。 論文概要(Abstract) Skevaki, Domazakis, Tassiulas, Koutsopoulos (2025) は、RAG(Retrieval-Augmented Generation)パイプラインの品質評価において、どのLLMをJudgeとして使うべきかを体系的に比較した研究である。GPT-4o、GPT-...