本記事は arXiv:2408.06072 “CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer” の解説記事です。この論文はICLR 2025に採択されています。 論文概要(Abstract) CogVideoXは、Zhipu AI(清華大学系)が開発した大規模テキスト-動画拡散モデルである。著者らは...
本記事は GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models の解説記事です。 論文概要(Abstract) GRPO-LEADは、GRPOの3つの実践的課題(報酬スパース性、出力の冗長性、問題難易度の無視)を...
本記事は Reinforcement Learning with NVIDIA NeMo-RL: Reproducing a DeepScaleR Recipe Using GRPO の解説記事です。 ブログ概要(Summary) NVIDIAは2025年7月にオープンソースのRL学習ライブラリNeMo-RLを公開した。このブログ記事では、NeMo-RLを用いてDeepScaleRのGR...
本記事は arXiv:2412.03603 “HunyuanVideo: A Systematic Framework for Large Video Generation Model” の解説記事です。 論文概要(Abstract) HunyuanVideoは、Tencentが開発した13Bパラメータのオープンソース動画生成モデルである。著者らは、データキュレーション、アーキテクチャ設...
本記事は arXiv:2601.03233 “LTX-2: Efficient Joint Audio-Visual Foundation Model” の解説記事です。 論文概要(Abstract) LTX-2は、Lightricksが2026年1月に公開した、動画と音声を単一のフォワードパスで同時生成するオープンソースの拡散モデルである。著者らは、14Bパラメータの動画ストリームと5...
本記事は DAPO: An Open-Source LLM Reinforcement Learning System at Scale の解説記事です。 論文概要(Abstract) DAPOは、GRPOベースの大規模LLM強化学習における4つの実践的欠陥を特定し、それぞれに対する修正手法を提案した研究である。著者ら(ByteDance Seed)は、Clip-Higher(非対称クリ...
本記事は arXiv:2504.12626 “Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models” の解説記事です。この論文はNeurIPS 2025に採択されています。 論文概要(Abstract) FramePackは、Lvmin Zhang(Contro...
本記事は DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning の解説記事です。 論文概要(Abstract) DeepSeek-R1は、強化学習(RL)のみでLLMの推論能力を獲得させることに成功した研究である。著者らはまずDeepSeek-R1-Zeroとして、SFTを一切...
本記事は arXiv:2503.03049 “Wan: Open and Advanced Large-Scale Video Generative Models” の解説記事です。 論文概要(Abstract) Wanは、Alibaba(Wan-Video)が開発したオープンソースの大規模動画生成モデル群である。テキストから動画(T2V)および画像から動画(I2V)の両方をサポートし、...
本記事は DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models の解説記事です。 論文概要(Abstract) DeepSeekMathは、7Bパラメータのオープン言語モデルで数学推論の限界を押し広げた研究である。著者らはCommon Crawlから120Bトークンの数学関連デ...