Tags
最近の更新
- 📄 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較
- 📄 INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ
- 📄 論文解説: TensorOpera Router (PolyRouter) — kNN・MLP・BERTによるマルチモデルLLMルーティング
- ✍️ Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化
- 📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ