📄 論文解説: G-Eval — GPT-4とChain-of-Thoughtによる自然言語生成の自動評価

本記事は G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment の解説記事です。論文概要（Abstract）自然言語生成（NLG）タスクの自動評価は、BLEU・ROUGEなどの従来指標では人手評価との相関が低いという長年の課題がある。著者らは、LLMのChain-of-Thought（CoT）能力を活用して評価ス...

04/06/2026 blog paper

G-Eval NLG-evaluation Chain-of-Thought +5

📄 論文解説: PROMETHEUS — LLMに細粒度評価能力を誘導するオープンソースジャッジモデル

本記事は PROMETHEUS: Inducing Fine-grained Evaluation Capability in Language Models の解説記事です。論文概要（Abstract） GPT-4などのプロプライエタリLLMを評価器として使う手法が一般化しているが、透明性の欠如、コスト、API依存性などの問題がある。著者らは、カスタムルーブリック（評価基準）を入力と...

04/06/2026 blog paper

PROMETHEUS LLM-as-Judge evaluation +5

✍️ Anthropic Engineering解説: Demystifying Evals for AI Agents

本記事は Demystifying Evals for AI Agents（Anthropic Engineering Blog, 2026年1月9日公開）の解説記事です。ブログ概要（Summary） Anthropicのエンジニアリングチームが公開した、AIエージェント評価（Evals）の包括的ガイドである。エージェント評価における基本概念の定義から、3種類のグレーダー（Code-B...

04/06/2026 blog tech_blog

evaluation AI-agent Anthropic +5

📄 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。論文概要（Abstract）大規模言語モデル（LLM）の評価において、人手評価はコストが高く再現性に欠ける課題がある。著者らは、強力なLLM（GPT-4等）を自動評価器として活用するLLM-as-a-Judgeアプローチを体系的に検証し、人手評価との...

04/06/2026 blog paper

LLM-as-Judge evaluation MT-Bench +5

📄 論文解説: AutoSearch — 強化学習による適応的検索深度制御でAgentic RAGの過剰検索を解消する

本記事は arXiv:2604.17337 (AutoSearch) の解説記事です。論文概要（Abstract） AutoSearchは、Agentic RAGにおける「過剰検索（over-searching）」問題を強化学習で解決するフレームワークである。著者らはSearch Budget Token（SBT）と呼ばれる特殊トークン機構を導入し、LLMが「いつ検索を止めるか」を自律...

03/06/2026 blog paper

rag graphrag reinforcementlearning +3

📄 論文解説: Sarathi-Serve — Chunked PrefillsによるLLM推論スループット-レイテンシ最適化

本記事は arXiv:2403.02310 (Sarathi-Serve) の解説記事です。論文概要（Abstract） LLM推論の各リクエストはPrefill（入力プロンプトの一括処理）とDecode（出力トークンの逐次生成）という2つのフェーズから構成される。PrefillはGPU計算を飽和させるがレイテンシが高く、Decodeはレイテンシが低いがGPU利用率も低い。この非対称性...

03/06/2026 blog paper

LLM inference vllm +4

📄 論文解説: RouteRAG — 強化学習によるテキスト・グラフ検索の動的ルーティング

本記事は arXiv:2512.09487 (RouteRAG) の解説記事です。論文概要（Abstract） RouteRAGは、クエリごとにテキスト検索・グラフ検索・ハイブリッドの3モードから最適な検索戦略を動的に選択する軽量ルーターを強化学習（RL）で訓練するフレームワークである。著者らは、異なるクエリは異なる情報ソースを必要とするという観察に基づき、固定的な検索戦略の非効率性を...

03/06/2026 blog paper

rag graphrag reinforcementlearning +3

📄 論文解説: Llumnix — LLMサービングのための動的リクエストリスケジューリング

本記事は arXiv:2406.03243 (Llumnix) の解説記事です。論文概要（Abstract） Llumnixは、Alibaba Groupの研究チームが提案したLLMサービングのための動的リクエストリスケジューリングシステムである。LLMへのリクエストはアプリケーションの多様性やモデル実行の動的な性質により、リソース要求やレイテンシ要件が本質的に不均一であるという課題に...

03/06/2026 blog paper

LLM inference scheduling +4

✍️ Anyscale解説: Ray Data LLMによるvLLM同期エンジン比2倍スループットの実現

本記事は Anyscale公式ブログ: Ray Data LLM enables 2x throughput over vLLM’s synchronous LLM engine at production-scale の解説記事です。ブログ概要（Summary） Anyscaleが公開したRay Data LLMは、vLLMの同期LLMエンジンと比較してプロダクションスケールで2倍の...

03/06/2026 blog tech_blog

ray vllm batch-inference +4

📄 論文解説: Graph-R1 — End-to-End強化学習によるエージェント型GraphRAGフレームワーク

本記事は arXiv:2507.21892 (Graph-R1) の解説記事です。論文概要（Abstract） Graph-R1は、LLMエージェントをGRPO（Group Relative Policy Optimization）で訓練し、知識グラフ上のインタラクティブな動的探索を通じて多ホップ質問応答を行うEnd-to-Endフレームワークである。著者らは、従来のGraphRAGが...

03/06/2026 blog paper

rag graphrag reinforcementlearning +3

1
...
17
18
19
...
145
18 / 145