Home
0h-n0 TechBLog
キャンセル

📄 論文解説: AutoSearch — 強化学習による適応的検索深度制御でAgentic RAGの過剰検索を解消する

本記事は arXiv:2604.17337 (AutoSearch) の解説記事です。 論文概要(Abstract) AutoSearchは、Agentic RAGにおける「過剰検索(over-searching)」問題を強化学習で解決するフレームワークである。著者らはSearch Budget Token(SBT)と呼ばれる特殊トークン機構を導入し、LLMが「いつ検索を止めるか」を自律...

📄 論文解説: Sarathi-Serve — Chunked PrefillsによるLLM推論スループット-レイテンシ最適化

本記事は arXiv:2403.02310 (Sarathi-Serve) の解説記事です。 論文概要(Abstract) LLM推論の各リクエストはPrefill(入力プロンプトの一括処理)とDecode(出力トークンの逐次生成)という2つのフェーズから構成される。PrefillはGPU計算を飽和させるがレイテンシが高く、Decodeはレイテンシが低いがGPU利用率も低い。この非対称性...

📄 論文解説: RouteRAG — 強化学習によるテキスト・グラフ検索の動的ルーティング

本記事は arXiv:2512.09487 (RouteRAG) の解説記事です。 論文概要(Abstract) RouteRAGは、クエリごとにテキスト検索・グラフ検索・ハイブリッドの3モードから最適な検索戦略を動的に選択する軽量ルーターを強化学習(RL)で訓練するフレームワークである。著者らは、異なるクエリは異なる情報ソースを必要とするという観察に基づき、固定的な検索戦略の非効率性を...

📄 論文解説: Llumnix — LLMサービングのための動的リクエストリスケジューリング

本記事は arXiv:2406.03243 (Llumnix) の解説記事です。 論文概要(Abstract) Llumnixは、Alibaba Groupの研究チームが提案したLLMサービングのための動的リクエストリスケジューリングシステムである。LLMへのリクエストはアプリケーションの多様性やモデル実行の動的な性質により、リソース要求やレイテンシ要件が本質的に不均一であるという課題に...

✍️ Anyscale解説: Ray Data LLMによるvLLM同期エンジン比2倍スループットの実現

本記事は Anyscale公式ブログ: Ray Data LLM enables 2x throughput over vLLM’s synchronous LLM engine at production-scale の解説記事です。 ブログ概要(Summary) Anyscaleが公開したRay Data LLMは、vLLMの同期LLMエンジンと比較してプロダクションスケールで2倍の...

📄 論文解説: Graph-R1 — End-to-End強化学習によるエージェント型GraphRAGフレームワーク

本記事は arXiv:2507.21892 (Graph-R1) の解説記事です。 論文概要(Abstract) Graph-R1は、LLMエージェントをGRPO(Group Relative Policy Optimization)で訓練し、知識グラフ上のインタラクティブな動的探索を通じて多ホップ質問応答を行うEnd-to-Endフレームワークである。著者らは、従来のGraphRAGが...

📄 WWW 2026論文解説: GraphRAG-R1 — プロセス制約付き強化学習によるグラフRAGの検索・生成結合最適化

本記事は arXiv:2507.23581 (GraphRAG-R1) の解説記事です。 論文概要(Abstract) GraphRAG-R1は、知識グラフ(KG)上での検索と推論を強化学習(RL)で結合最適化するフレームワークである。著者らは既存GraphRAGの3つの限界 — 固定検索パイプライン、結果のみに基づく報酬、密部分グラフによるノイズ — に対し、プロセス制約付きRLを提案...

📄 論文解説: vLLM — PagedAttentionによるLLMサービングのメモリ効率革新

本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) LLMの高スループットサービングには、多数のリクエストを同時にバッチ処理する必要がある。しかし、リクエストごとに必要なKVキャッシュのメモリは巨大かつ動的に増減するため、従来のシステムではメモリの断片化や重複確保によりバッチサイズが制限されていた。著者らはOSの仮想メモリとページング機構に着想を得...

📄 論文解説: A2RAG — バイオメディカルQAのための適応的エージェント型グラフRAG

本記事は arXiv:2601.21162 (A2RAG) の解説記事です。 論文概要(Abstract) A2RAG (Adaptive Agentic Graph Retrieval Augmented Generation) は、バイオメディカル質問応答(QA)における検索精度向上を目的としたフレームワークである。構造化知識グラフ(KG)と非構造化テキストという異種情報ソースに対し...

📄 ASPLOS 2024論文解説: SpotServe — プリエンプティブルインスタンス上のLLMサービングシステム

本記事は arXiv:2311.15566 (SpotServe) の解説記事です。 論文概要(Abstract) SpotServeは、プリエンプティブル(Spot)GPUインスタンス上で大規模言語モデル(LLM)の推論サービスを提供する分散システムである。著者らは、Spotインスタンスの突然のプリエンプション(強制終了)に対処するため、動的並列化構成の再調整、Kuhn-Munkres...