最近の更新
localllm 10
- 論文解説: vLLM-MLX — Apple Silicon統合メモリを活かしたLLM推論の高速化 25/03/2026
- NeurIPS 2024論文解説: MoE推論の効率化に向けた3つの最適化手法 25/03/2026
- ブログ解説: llama.cppによるMoEモデルのCPU+GPUハイブリッド推論最適化ガイド 25/03/2026
- 論文解説: HOBBIT — 混合精度エキスパートオフローディングによるMoE推論の高速化 25/03/2026
- 論文解説: MoEモデルのSSDオフロードはエネルギー効率で有害か 25/03/2026
- 論文解説: DeepSeekMoE — 細粒度エキスパート分割と共有エキスパートによるMoE効率化 25/03/2026
- 論文解説: Gated Delta Networks — Mamba2とDelta Ruleの融合による線形注意の革新 25/03/2026
- 論文解説: MoEオフロードによる大規模スパースモデルの高速推論 25/03/2026
- 論文解説: FlashMoE - SSD I/Oボトルネックを解消するML基盤キャッシュ置換によるMoEエッジ推論 25/03/2026
- 論文解説: Qwen3 Technical Report — MoEアーキテクチャとHybrid Thinkingの全容 25/03/2026