最近の更新
transformer 23
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論 01/04/2026
- 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細 29/03/2026
- 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法 29/03/2026
- 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化 29/03/2026
- 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法 29/03/2026
- 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する 29/03/2026
- 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装 29/03/2026
- 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化 29/03/2026
- 論文解説: Titans — 推論時ニューラルメモリ更新による200万トークン超の長期記憶 25/03/2026
- 論文解説: Fast Inference from Transformers via Speculative Decoding — 投機的デコーディングの原論文 13/03/2026
- Chronos-2解説: 単変量から汎用予測へ — Amazonの時系列ファウンデーションモデル 12/03/2026
- 論文解説: GraphBFF — 初のBillion-Scaleグラフファウンデーションモデルとニューラルスケーリング則 12/03/2026
- 論文解説: LLaDA — マスク拡散で実現する大規模言語モデルの新パラダイム 04/03/2026
- 論文解説: Gemini 1.5 — 1000万トークンコンテキストで実現するマルチモーダル長文脈理解 23/02/2026
- 論文解説: Prompt Cache — モジュラーアテンション再利用によるLLM推論の低レイテンシ化 23/02/2026
- 論文解説: Gemini — ネイティブマルチモーダル基盤モデルのアーキテクチャと設計思想 23/02/2026
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論 22/02/2026
- 論文解説: MIO — 音声・テキスト・画像・動画を統一トークンで理解・生成する基盤モデル 22/02/2026
- 論文解説: Gemini 1.5 — Sparse MoEで100万トークンコンテキストのマルチモーダル理解を実現 22/02/2026
- 論文解説: Gemini — ネイティブマルチモーダルモデルの設計と画像・音声・動画統合処理 22/02/2026
- 論文解説: Moonshine — エッジデバイス向けリアルタイム音声認識モデル 19/02/2026
- NeurIPS 2025 Best Paper解説: Gated Attention — Sigmoidゲートが実現する非線形・スパース・Attention-Sink-Freeなアテンション 18/02/2026
- 論文解説: Infini-attention - 無限長コンテキストを実現する圧縮メモリ機構 15/02/2026