Home
0h-n0 TechBLog
キャンセル

📄 論文解説: LLaDA-MoE — Sparse MoEと拡散言語モデルの初統合

本記事は arXiv:2509.24389 “LLaDA-MoE” の解説記事です。 論文概要(Abstract) LLaDA-MoE は、マスク拡散言語モデル LLaDA に Sparse Mixture-of-Experts(MoE)アーキテクチャを統合した研究である。著者らは、Transformer の FFN 層を Sparse MoE 層に置換し、7B の総パラメータ中わずか ...

📄 論文解説: Mercury — 拡散ベースの超高速言語モデルの推論技術

本記事は arXiv:2506.17298 “Mercury: Ultra-Fast Language Models Based on Diffusion” の解説記事です。 論文概要(Abstract) Mercury は、Inception Labs が開発した商用拡散言語モデルであり、自己回帰(AR)モデルと比較して推論速度を大幅に高速化することを目的としている。著者らは、マスク拡...

📄 論文解説: LLaDA 2.0 — 拡散言語モデルを100Bパラメータにスケーリングする技術

本記事は arXiv:2512.15745 “LLaDA2.0: Scaling Up Diffusion Language Models to 100B” の解説記事です。 論文概要(Abstract) LLaDA 2.0は、Ant GroupのInclusionAIチームが2025年12月に発表した拡散言語モデルである。著者らは、事前学習済みの自己回帰(AR)モデルをマスク拡散モデル...