- 📄 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較
- 📄 INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ
- 📄 論文解説: TensorOpera Router (PolyRouter) — kNN・MLP・BERTによるマルチモデルLLMルーティング
- ✍️ Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化
- 📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ
本記事は arXiv:2506.06579 の解説記事です。 論文概要(Abstract) 本論文は、LLM推論における計算コスト・エネルギー消費・レイテンシの課題に対し、マルチLLMインテリジェントモデル選択の2大アプローチ――ルーティングと階層的推論(Hierarchical Inference / カスケーディング)――を体系的に特徴化・比較する。ルーティングはクエリ特性に基づいて...