- ✍️ vLLM公式ブログ解説: How Speculative Decoding Boosts vLLM Performance — 実装と性能評価
- 📄 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻撃・防御を動的に評価するフレームワーク
- 📄 論文解説: ToolNet — グラフ構造による大規模ツール管理でLLMエージェントのツール選択を効率化
- 📄 論文解説: Fast Inference from Transformers via Speculative Decoding — 投機的デコーディングの原論文
- ✍️ Amazon Bedrock AgentCore Gateway 解説: AWS によるマネージド MCP Gateway の設計と機能
本記事は How Speculative Decoding Boosts vLLM Performance の解説記事です。 ブログ概要(Summary) vLLMプロジェクトが2024年10月に公開した公式ブログでは、vLLMにおける投機的デコーディングの実装アーキテクチャ、サポートする3つの手法(ドラフトモデル方式、Prompt Lookup Decoding、Medusa/EAGL...