最近の更新
latency 10
- 論文解説: Speculative Sampling — ドラフトモデルによるLLMデコード高速化 02/04/2026
- MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference 20/03/2026
- 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化 16/03/2026
- 論文解説: Fast Inference from Transformers via Speculative Decoding 16/03/2026
- OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化 23/02/2026
- AWS公式解説: Amazon Bedrock Cross-Region Inferenceでスロットリングを解消しスループットを向上させる 23/02/2026
- ISCA 2025論文解説: RAGO — RAGサービングのシステムレベル性能最適化 23/02/2026
- Anthropic解説: Code Execution with MCP — プログラマティックツール呼び出しでトークン消費98.7%削減 22/02/2026
- 論文解説: MCP-Zero — MCPエージェントのための能動的ツール発見フレームワーク 22/02/2026
- 論文解説: MCPBench — MCPサーバのレイテンシ・信頼性を体系的に評価するベンチマーク 22/02/2026