Home
0h-n0 TechBLog
キャンセル

✍️ 解説: PremAI RAG Evaluation — Metrics, Frameworks & Testing (2026)

本記事は PremAI Blog: RAG Evaluation: Metrics, Frameworks & Testing (2026) の解説記事です。 ブログ概要(Summary) PremAI社のArnav Jalan氏が2026年3月に公開した本ガイドは、RAGシステムの本番品質評価について、指標設計からフレームワーク選定、CI/CD統合、本番監視戦略までを体系的にカ...

📄 論文解説: PALADIN — 障害事例バンクによるLLMエージェントのツール障害自己修正フレームワーク

論文概要(Abstract) 本記事は arXiv:2509.25238(Dan et al., 2025)の解説記事です。 LLMエージェントは実世界のツール呼び出し環境で、不正なパラメータ、API廃止、環境エラーといったツール障害に頻繁に遭遇する。PALADINはFailure Exemplar Bank(FEB)という障害事例バンクを導入し、過去の障害-回復ペアを蓄積・検索すること...

📄 ICLR 2025論文解説: MMTEB — Massive Multilingual Text Embedding Benchmark

本記事は arXiv:2502.13595 (MMTEB: Massive Multilingual Text Embedding Benchmark) の解説記事です。本論文はICLR 2025に採択されています。 論文概要(Abstract) MMTEB(Massive Multilingual Text Embedding Benchmark)は、英語中心であったMTEBを250言...

📄 論文解説: Graph-Based Self-Healing Tool Routing — LLMエージェントのコスト効率を高めるグラフベース自己修復ルーティング

論文概要(Abstract) 本記事は arXiv:2603.01548(Bholani, 2026)の解説記事です。 LLMエージェントがツールを呼び出す際、ReActのようなステップバイステップ推論ではLLMを各ステップで呼び出す必要があり、高コストかつ障害時の回復にも追加のLLM推論を要する。本論文はSelf-Healing Routerを提案し、タスク開始時にLLMが一度だけ有向...

📄 論文解説: Beyond Benchmarks — Evaluating Embedding Model Similarity for RAG Systems

本記事は arXiv:2407.08275 (Beyond Benchmarks: Evaluating Embedding Model Similarity for Retrieval Augmented Generation Systems) の解説記事です。 論文概要(Abstract) 本論文は、RAGシステムにおけるEmbeddingモデル選定の課題に取り組んでいる。著者ら(V...

📄 ICML 2024論文解説: LLMガードレールの体系的設計手法

論文概要 本記事は ICML 2024 論文「Position: Building Guardrails for Large Language Models Requires Systematic Design」の解説記事です。著者らは、LLM の入出力をフィルタリングするガードレール技術について、現行のオープンソースソリューション(Llama Guard、NVIDIA NeMo Guar...

📄 論文解説: FrugalGPT — LLMコスト98%削減のカスケード戦略

論文概要 本記事は arXiv 論文 2305.13246 の解説記事です。Stanford大学の Lingjiao Chen、Matei Zaharia、James Zou らによる「FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance」(2023年5月公開)は、...

📄 論文解説: Llama Guard — LLMベース入出力ガードレールの設計と実装

論文概要(Abstract) 本記事はarXiv論文 2312.06674 の解説記事です。 Llama Guardは、Meta AIが2023年12月に発表したLLMベースの入出力安全性分類モデルである。人間とAIの会話において、ユーザープロンプト(入力)とモデルレスポンス(出力)の双方を、MLCommons AI Safetyタクソノミーに基づく6カテゴリで「safe」または「uns...