- 📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference
- 📄 論文解説: ToolPRM — Function Callingのためのプロセス報酬モデルによる推論時スケーリング
- 📄 論文解説: VIGIL — ツールストリームインジェクションからLLMエージェントを防御するVerify-Before-Commitプロトコル
- 📄 論文解説: XGrammar-2 — エージェントLLMのための動的構造化生成エンジン
- 📄 論文解説: JSONSchemaBench — 構造化出力のための制約付きデコーディングベンチマーク
論文概要(Abstract) 本記事は Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey の解説記事です。 本サーベイ論文は、LLM推論時に複数モデルから動的にモデルを選択する「ルーティング」と「カスケード」のアプローチを体系的に整理したものです。著者らは、クエリ難易度推定、人間の嗜好データ...