- ✍️ Google Research公式ブログ解説: Towards a Science of Scaling Agent Systems
- ✍️ Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析
- ✍️ Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない
- 📄 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価
- 📄 ICLR 2024論文解説: Ring Attention — 複数GPU間でのブロックワイズ分散アテンションによる超長コンテキスト処理
本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。 論文概要(Abstract) DeepSeek-V2は、合計236Bパラメータのうちトークンあたり21Bのみを活性化するMoE(Mixture-of-Experts)言語モデルである。著者らは2つ...