論文解説: 拡散言語モデルのサーベイ — 手法分類・課題・今後の研究方向

本記事は arXiv:2508.10875 “A Survey on Diffusion Language Models” の解説記事です。

論文概要（Abstract）

本サーベイ論文は、VILA Lab（Georgia Tech）のチームが2025年8月に発表した拡散言語モデル（Diffusion Language Model, DLM）の包括的な調査である。著者らは、テキスト生成に拡散モデルを適用する研究を体系的に分類し、連続拡散・離散拡散・マスク拡散の3つの主要アプローチを整理している。さらに、ARモデルとの性能比較、推論効率化の手法、応用分野ごとの採用状況を網羅的にレビューし、今後の研究方向として適応的並列デコーディング、長文生成、マルチモーダル統合などを提示している。

この記事は Zenn記事: 拡散言語モデル2026年動向：Mercury・LLaDA・MoE統合の実装と展望の深掘りです。

情報源

arXiv ID: 2508.10875
URL: https://arxiv.org/abs/2508.10875
著者: VILA Lab, Georgia Tech
発表年: 2025年8月
分野: cs.CL, cs.LG

背景と動機（Background & Motivation）

拡散モデルは画像生成（Stable Diffusion, DALL-E 3）、動画生成（Sora）、音声合成などの連続データ生成で大きな成功を収めてきた。しかし、テキストは離散トークンで構成されるため、連続空間で定義された拡散プロセスの直接適用が困難であった。

2022年以降、この課題に対する多様なアプローチが提案されてきた。テキストを連続埋め込み空間にマッピングする方法（連続拡散）、離散空間で直接拡散を定義する方法（離散拡散）、マスキングを拡散プロセスとして解釈する方法（マスク拡散）など、アプローチが多岐にわたるため、研究の全体像を把握することが困難になっていた。

著者らは、2022年から2025年にかけての拡散言語モデル研究を体系的に分類・整理し、各アプローチの理論的基盤、実装上の課題、ベンチマーク結果を横断的に比較するサーベイの必要性を認識し、本論文を執筆した。

主要な貢献（Key Contributions）

貢献1: 拡散言語モデルを「連続拡散」「離散拡散」「マスク拡散」の3カテゴリに体系的に分類し、各アプローチの理論的関係を明らかにした
貢献2: 2022〜2025年の主要モデル（D3PM, SEDD, MDLM, LLaDA, Mercury等）を統一的なフレームワークで比較分析した
貢献3: 今後の研究方向として、適応的並列デコーディング、長文生成、マルチモーダル統合、推論インフラ整備を具体的に提示した

技術的詳細（Technical Details）

拡散言語モデルの3分類

著者らは、拡散言語モデルを前方過程（ノイズ付加方法）に基づいて3つのカテゴリに分類している。

graph TD
    DLM["拡散言語モデル<br/>Diffusion Language Models"] --> C["連続拡散<br/>Continuous Diffusion"]
    DLM --> D["離散拡散<br/>Discrete Diffusion"]
    DLM --> M["マスク拡散<br/>Masked Diffusion"]

    C --> C1["Diffusion-LM (Li et al., 2022)"]
    C --> C2["GENIE (Lin et al., 2023)"]
    C --> C3["SSD-LM (Han et al., 2023)"]

    D --> D1["D3PM (Austin et al., 2021)"]
    D --> D2["SEDD (Lou et al., 2024)"]
    D --> D3["MDLM (Sahoo et al., 2024)"]

    M --> M1["LLaDA (Nie et al., 2025)"]
    M --> M2["Mercury (Inception, 2025)"]
    M --> M3["Dream (Ye et al., 2025)"]

1. 連続拡散（Continuous Diffusion）

テキストトークンを連続埋め込み空間にマッピングし、ガウスノイズを付加する標準的な拡散プロセスを適用する。

前方過程:

\[q(z_t \mid z_0) = \mathcal{N}(z_t; \sqrt{\bar{\alpha}_t} z_0, (1 - \bar{\alpha}_t) \mathbf{I})\]

ここで、$z_0 = \text{Embed}(x_0)$ はテキストの連続埋め込みである。

利点: 画像拡散モデルの理論・実装をほぼそのまま転用可能課題: 埋め込み空間からの離散トークンへの復元（rounding）でエラーが蓄積する

代表的モデル: Diffusion-LM（Li et al., 2022）、GENIE（Lin et al., 2023）

2. 離散拡散（Discrete Diffusion）

トークン空間で直接遷移行列を定義し、離散的なノイズ付加を行う。

前方過程:

\[q(x_t \mid x_{t-1}) = \text{Cat}(x_t; \mathbf{Q}_t x_{t-1})\]

ここで、$\mathbf{Q}_t \in \mathbb{R}^{V \times V}$ は時刻 $t$ における遷移行列、$V$ は語彙サイズである。

遷移行列の設計:

一様遷移: $\mathbf{Q}_t = (1-\beta_t)\mathbf{I} + \beta_t/V \cdot \mathbf{1}\mathbf{1}^T$（全トークンへの一様遷移）
吸収遷移: マスクトークンへの遷移のみ許容（マスク拡散の一般化）

代表的モデル: D3PM（Austin et al., 2021）、SEDD（Lou et al., 2024）

3. マスク拡散（Masked Diffusion）

離散拡散の特殊ケースとして、トークンをマスクトークン $[M]$ に置換する操作のみを前方過程とする。

前方過程:

\[q(x_t^i \mid x_0^i) = \begin{cases} [M] & \text{確率 } t \\ x_0^i & \text{確率 } 1-t \end{cases}\]

利点: 実装が単純、BERT のマスク言語モデル（MLM）と密接に関連、スケーリングの実績がある（LLaDA 8B, LLaDA 2.0 100B）課題: 遷移がマスク→元トークンの一方向のみであり、表現力が制限される

代表的モデル: MDLM（Sahoo et al., 2024）、LLaDA（Nie et al., 2025）、Mercury（Inception Labs, 2025）

3アプローチの理論的関係

著者らは、マスク拡散が離散拡散の特殊ケースであり、離散拡散がある条件下で連続拡散の離散化と見なせることを示している。

\[\text{連続拡散} \xrightarrow{\text{離散化}} \text{離散拡散} \xrightarrow{\text{吸収遷移}} \text{マスク拡散}\]

この関係は、マスク拡散の理論的な正当性を裏付けるとともに、より一般的な遷移行列を用いた離散拡散が将来的に有望であることを示唆している。

推論効率化の手法

著者らは、拡散言語モデルの推論効率化について以下の手法を分類している：

手法	概要	代表例
Adaptive Step Scheduling	入力の複雑度に応じてステップ数を動的調整	Mercury
Confidence-based Unmasking	信頼度の高いトークンを優先的にアンマスク	LLaDA 2.0-CAP
Semi-autoregressive	ブロック単位でAR、ブロック内で拡散	Block Diffusion
Knowledge Distillation	多ステップモデルを少ステップモデルに蒸留	Progressive Distillation
Adaptive Parallel Decoding	トークン間の依存関係を分析し独立トークンのみ並列化	NeurIPS 2025 Oral

適応的並列デコーディング（Adaptive Parallel Decoding）は、サーベイで特に有望とされている手法である。マスクトークン間の依存関係をグラフとして分析し、独立なトークン群のみを並列に生成する。これにより、品質を犠牲にせずに推論速度を向上させることが可能であると著者らは述べている。

応用分野別の分析

著者らは、拡散言語モデルの応用分野を以下のように整理している：

テキスト生成（汎用）:

LLaDA 8B: in-context learningでLLaMA3 8Bと同等
Mercury 2: 推論機能付きdLLM、1,009 tok/s
長文生成は課題として残存

コード生成:

LLaDA 2.0-flash: HumanEval 94.51%
Mercury Coder: Copilot Arena品質2位
双方向コンテキストがコードの構造的依存関係のモデル化に有利

科学分野:

タンパク質設計: DiMA（ICML 2025）、RFdiffusion3
分子生成: 離散拡散ベースの分子設計
構造予測: 拡散モデルによる3D構造生成

制御可能なテキスト生成:

Classifier-guided generation
拡散モデルの反復的改善プロセスが制約適用に適している

ARモデルとDLMの比較分析

著者らは、ARモデルと拡散言語モデルの本質的な違いを以下のように整理している：

特性	AR モデル	拡散言語モデル
生成方向	左→右（一方向）	全方向（双方向）
理論基盤	自己回帰分解 $p(x) = \prod p(x_i \mid x_{<i})$	拡散過程のELBO
推論ステップ	$L$（シーケンス長）	$T$（固定、$T \ll L$ 可能）
並列性	低（逐次生成）	高（各ステップで全位置処理）
KVキャッシュ	利用可能	直接適用不可
生成の柔軟性	限定的（左→右固定）	高い（任意の順序で確定可能）
エコシステム	成熟（vLLM, TGI等）	発展途上（dLLM等）
反転の呪い	影響を受ける	影響を受けにくい

重要な指摘: 著者らは、ARモデルの優位性の多くがアーキテクチャ自体ではなく、推論インフラ（KVキャッシュ、FlashAttention、PagedAttention、Speculative Decoding等）の最適化によるものであると分析している。拡散モデル向けの同等の推論最適化が開発されれば、速度面でのギャップはさらに縮小すると著者らは予想している。

実装のポイント（Implementation）

フレームワークの選択: サーベイで言及されている拡散言語モデルの実装フレームワークは以下の通り：

dLLM (GitHub: ZHZisZZ/dllm): LLaDA、MDLMなど複数の拡散モデルを統一インターフェースで推論できるOSSフレームワーク
HuggingFace Transformers: LLaDAの公式実装が対応
MegaBlocks / DeepSpeed MoE: MoE統合時のExpert Parallelism向け

実験の再現: サーベイ論文自体は実験を含まないが、著者らは各論文の公開コードとベンチマーク結果を体系的にまとめている。再現性の観点では、LLaDA（Apache 2.0、コード・重み公開）が最も再現しやすく、Mercury（商用、重み非公開）が最も再現困難である。

評価指標の注意点: ARモデルとDLMでは適切な評価指標が異なる場合がある。著者らは、Perplexityはベースの確率モデルが異なるため直接比較が困難であり、タスク固有のベンチマーク（HumanEval、MMLU等）での比較が推奨されると述べている。

実験結果（Results）

サーベイ論文であるため独自の実験結果はないが、著者らは以下の横断的な比較を提示している（各論文の報告値に基づく）：

拡散言語モデルのスケーリング推移:

モデル	年	パラメータ	活性化パラメータ	HumanEval	方式
Diffusion-LM	2022	~100M	~100M	-	連続
MDLM	2024	~1B	~1B	-	マスク
LLaDA	2025.2	8B	8B	26.2%	マスク
Mercury Coder	2025.6	非公開	非公開	~88%	マスク
LLaDA-MoE	2025.9	7B	1.4B	-	マスク+MoE
LLaDA 2.0	2025.12	100B	6.1B	94.51%	マスク+MoE

著者らは、2022年の100Mスケールから2025年末の100Bスケールまで、約3年で1000倍のスケーリングが達成されたと指摘している。特に2025年はLLaDA、Mercury、LLaDA-MoE、LLaDA 2.0と複数のモデルが発表され、拡散言語モデルの研究が急加速した年であった。

推論速度の比較（各論文の報告値）:

モデル	推論速度 (tok/s)	GPU	備考
Mercury Coder Mini	1,109	H100	初代Mercury
Mercury 2	~1,009	Blackwell	推論機能付き
LLaDA 2.0-flash-CAP	535	不明	CAP付き
標準ARモデル	50-100	H100	一般的な推論速度

実運用への応用（Practical Applications）

研究者向けのロードマップ: 著者らは、拡散言語モデルの研究に参入する研究者向けに以下のステップを推奨している：

dLLMフレームワークでLLaDA/MDLMの推論を試す
自分の専門分野（コード生成、タンパク質設計等）でARモデルとの比較実験を行う
推論効率化（適応的ステップ数、並列デコーディング）の改善に取り組む

実務者向けの示唆: 2026年3月時点では、プロダクション利用可能な拡散言語モデルはMercury API（商用）が唯一の選択肢である。OSSモデル（LLaDA系列）は研究・実験用途に適しているが、推論インフラの未成熟さから本番環境での利用にはカスタム実装が必要である。

制約と注意点: サーベイ論文の性質上、各モデルの報告値を横断的に比較しているが、実験条件（GPU、バッチサイズ、評価設定）が統一されていないため、直接的な数値比較には注意が必要である。著者らもこの点を論文中で言及している。

まとめと今後の展望

本サーベイ論文は、拡散言語モデルの研究を体系的に分類・整理し、3つの主要アプローチ（連続・離散・マスク拡散）の理論的関係を明らかにした。2022年から2025年にかけて、パラメータ規模は100Mから100Bへと1000倍に成長し、品質面でもARモデルと同等レベルに到達しつつある。

著者らが挙げる今後の研究方向は以下の通りである：

適応的並列デコーディング: トークン間の依存関係を分析し、独立トークンのみを並列生成。品質を維持しつつ推論速度を向上
長文生成: 現在のDLMは短〜中程度のテキストが得意だが、長文（10K+トークン）生成では品質低下が課題
マルチモーダル統合: LLaDA-Vのようなビジョン+拡散言語モデルの発展。画像とテキストの統合的な拡散プロセス
推論インフラの整備: KVキャッシュに相当する拡散モデル専用のキャッシュ機構、FlashAttentionの双方向版最適化
ARモデルとのハイブリッド: HART（Hybrid Autoregressive Transformer）のように、ARと拡散を組み合わせるアプローチ

拡散言語モデルの分野は急速に発展しており、本サーベイは2025年8月時点のスナップショットである。2026年以降もLLaDA 2.1のToken Editing、Mercury 2の推論機能拡張など新しい研究が続いており、定期的な更新が必要な領域である。

参考文献

arXiv: https://arxiv.org/abs/2508.10875
Related papers:
- LLaDA: arXiv:2502.09992
- Mercury: arXiv:2506.17298
- MDLM: arXiv:2406.07524
- SEDD: arXiv:2310.16834
- D3PM: arXiv:2107.03006
dLLM Framework: https://github.com/ZHZisZZ/dllm
Related Zenn article: https://zenn.dev/0h_n0/articles/82a9ebe3d96a89

📄 論文解説: 拡散言語モデルのサーベイ — 手法分類・課題・今後の研究方向

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

拡散言語モデルの3分類

1. 連続拡散（Continuous Diffusion）

2. 離散拡散（Discrete Diffusion）

3. マスク拡散（Masked Diffusion）

3アプローチの理論的関係

推論効率化の手法

応用分野別の分析

ARモデルとDLMの比較分析

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: 拡散言語モデルのサーベイ — 手法分類・課題・今後の研究方向

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

拡散言語モデルの3分類

1. 連続拡散（Continuous Diffusion）

2. 離散拡散（Discrete Diffusion）

3. マスク拡散（Masked Diffusion）

3アプローチの理論的関係

推論効率化の手法

応用分野別の分析

ARモデルとDLMの比較分析

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: LLaDA-MoE — Sparse MoEと拡散言語モデルの初統合

📄 論文解説: LLaDA — マスク拡散で実現する大規模言語モデルの新パラダイム

📄 論文解説: LLaDA 2.0 — 拡散言語モデルを100Bパラメータにスケーリングする技術