- 📄 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較
- 📄 INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ
- 📄 論文解説: TensorOpera Router (PolyRouter) — kNN・MLP・BERTによるマルチモデルLLMルーティング
- ✍️ Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化
- 📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ
本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 論文概要(Abstract) 著者ら(Alibaba Cloud)は、既存のLLMサービン...