📄 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ

本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。論文概要（Abstract） MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...

24/02/2026 blog paper

multi-agent RAG LangGraph +7

📄 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク

本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。論文概要（Abstract） LLMの構造化出力（Structured Output）は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...

24/02/2026 blog paper

structured-output constrained-decoding JSON-Schema +5

📄 論文解説: Don't Do RAG — Cache-Augmented Generation(CAG)がRAGを置き換える条件

本記事は arXiv:2501.00353 “Don’t Do RAG: When Cache-Augmented Generation is Better Than Retrieval-Augmented Generation” の解説記事です。論文概要（Abstract） Retrieval-Augmented Generation（RAG）はLLMに外部知識を接続する標準的アプロ...

24/02/2026 blog paper

RAG CAG KV-cache +5

📄 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。論文概要（Abstract） Bsharat, Myrzakhan, Shen（MBZUAI, 2024）は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...

24/02/2026 blog paper

prompt-engineering LLM instruction-design +2

📄 NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント

本記事は Reflexion: Language Agents with Verbal Reinforcement Learning（Shinn et al., NeurIPS 2023）の解説記事です。論文概要（Abstract） Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...

24/02/2026 blog paper

Reflexion ReAct LLM +6

📄 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク

本記事は arXiv:2412.13746 の解説記事です。論文概要 Jinらは、Retrieval-Augmented Generation（RAG）における報酬モデル（Reward Model, RM）の評価に特化した初のベンチマークRAG-RewardBenchを提案した。既存のRM評価ベンチマーク（RewardBenchなど）は汎用タスクを対象としており、RAG固有の課題（複数...

23/02/2026 blog paper

RAG reward-model benchmark +2

📄 EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク

本記事は EMNLP 2025 Industry Track の解説記事です。関連するZenn記事: LangGraph×Claude Sonnet 4.6でインラインLLM-as-Judge品質ゲートを組み込むRAG実装論文概要「Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards」は、Vectaraの研...

23/02/2026 blog paper

faithfulness hallucination RAG +2

✍️ AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価

本記事は AWS Machine Learning Blog の解説記事です。ブログ概要 AWSは、Amazon Bedrock Model EvaluationにLLM-as-a-Judge機能を統合し、RAGパイプラインを含むLLMアプリケーションの品質評価を自動化する手法を公開した。AWSは「人手評価と比較して最大98%のコスト削減を実現しつつ、faithfulness・help...

23/02/2026 blog tech_blog

AWS Bedrock LLM-as-Judge +2

📄 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析

本記事は arXiv:2502.09760 の解説記事です。論文概要（Abstract） Xiongらは、LLM-as-JudgeがRAG（Retrieval-Augmented Generation）の評価において系統的エラーを示すことを実証的に明らかにした。Citation Recall（引用再現率）、Citation Precision（引用適合率）、Conflicting In...

23/02/2026 blog paper

LLM-as-Judge RAG evaluation +5

📄 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較

本記事は arXiv:2503.12879 の解説記事です。論文概要（Abstract） Skevaki, Domazakis, Tassiulas, Koutsopoulos (2025) は、RAG（Retrieval-Augmented Generation）パイプラインの品質評価において、どのLLMをJudgeとして使うべきかを体系的に比較した研究である。GPT-4o、GPT-...

23/02/2026 blog paper

LLM-as-Judge RAG evaluation +2

1
...
70
71
72
...
109
71 / 109