本記事は arXiv:2604.17337 (AutoSearch) の解説記事です。 論文概要(Abstract) AutoSearchは、Agentic RAGにおける「過剰検索(over-searching)」問題を強化学習で解決するフレームワークである。著者らはSearch Budget Token(SBT)と呼ばれる特殊トークン機構を導入し、LLMが「いつ検索を止めるか」を自律...
本記事は arXiv:2403.02310 (Sarathi-Serve) の解説記事です。 論文概要(Abstract) LLM推論の各リクエストはPrefill(入力プロンプトの一括処理)とDecode(出力トークンの逐次生成)という2つのフェーズから構成される。PrefillはGPU計算を飽和させるがレイテンシが高く、Decodeはレイテンシが低いがGPU利用率も低い。この非対称性...
本記事は arXiv:2512.09487 (RouteRAG) の解説記事です。 論文概要(Abstract) RouteRAGは、クエリごとにテキスト検索・グラフ検索・ハイブリッドの3モードから最適な検索戦略を動的に選択する軽量ルーターを強化学習(RL)で訓練するフレームワークである。著者らは、異なるクエリは異なる情報ソースを必要とするという観察に基づき、固定的な検索戦略の非効率性を...
本記事は arXiv:2406.03243 (Llumnix) の解説記事です。 論文概要(Abstract) Llumnixは、Alibaba Groupの研究チームが提案したLLMサービングのための動的リクエストリスケジューリングシステムである。LLMへのリクエストはアプリケーションの多様性やモデル実行の動的な性質により、リソース要求やレイテンシ要件が本質的に不均一であるという課題に...
本記事は Anyscale公式ブログ: Ray Data LLM enables 2x throughput over vLLM’s synchronous LLM engine at production-scale の解説記事です。 ブログ概要(Summary) Anyscaleが公開したRay Data LLMは、vLLMの同期LLMエンジンと比較してプロダクションスケールで2倍の...
本記事は arXiv:2507.21892 (Graph-R1) の解説記事です。 論文概要(Abstract) Graph-R1は、LLMエージェントをGRPO(Group Relative Policy Optimization)で訓練し、知識グラフ上のインタラクティブな動的探索を通じて多ホップ質問応答を行うEnd-to-Endフレームワークである。著者らは、従来のGraphRAGが...
本記事は arXiv:2507.23581 (GraphRAG-R1) の解説記事です。 論文概要(Abstract) GraphRAG-R1は、知識グラフ(KG)上での検索と推論を強化学習(RL)で結合最適化するフレームワークである。著者らは既存GraphRAGの3つの限界 — 固定検索パイプライン、結果のみに基づく報酬、密部分グラフによるノイズ — に対し、プロセス制約付きRLを提案...
本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) LLMの高スループットサービングには、多数のリクエストを同時にバッチ処理する必要がある。しかし、リクエストごとに必要なKVキャッシュのメモリは巨大かつ動的に増減するため、従来のシステムではメモリの断片化や重複確保によりバッチサイズが制限されていた。著者らはOSの仮想メモリとページング機構に着想を得...
本記事は arXiv:2601.21162 (A2RAG) の解説記事です。 論文概要(Abstract) A2RAG (Adaptive Agentic Graph Retrieval Augmented Generation) は、バイオメディカル質問応答(QA)における検索精度向上を目的としたフレームワークである。構造化知識グラフ(KG)と非構造化テキストという異種情報ソースに対し...
本記事は arXiv:2311.15566 (SpotServe) の解説記事です。 論文概要(Abstract) SpotServeは、プリエンプティブル(Spot)GPUインスタンス上で大規模言語モデル(LLM)の推論サービスを提供する分散システムである。著者らは、Spotインスタンスの突然のプリエンプション(強制終了)に対処するため、動的並列化構成の再調整、Kuhn-Munkres...