本記事は DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines (arXiv:2310.03714) の解説記事です。 論文概要(Abstract) DSPyは、言語モデル(LM)パイプラインを「テキスト変換グラフ」として抽象化し、宣言的なプログラミングモデルとエンドツーエンドのコンパ...
11/03/2026 blog paper
DSPy prompt-optimization LLM +3
本記事は arXiv:2408.06072 “CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer” の解説記事です。この論文はICLR 2025に採択されています。 論文概要(Abstract) CogVideoXは、Zhipu AI(清華大学系)が開発した大規模テキスト-動画拡散モデルである。著者らは...
10/03/2026 blog paper
video-generation diffusion-transformer expert-transformer +6
本記事は GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models の解説記事です。 論文概要(Abstract) GRPO-LEADは、GRPOの3つの実践的課題(報酬スパース性、出力の冗長性、問題難易度の無視)を...
10/03/2026 blog paper
GRPO reinforcement-learning LLM +3
本記事は Reinforcement Learning with NVIDIA NeMo-RL: Reproducing a DeepScaleR Recipe Using GRPO の解説記事です。 ブログ概要(Summary) NVIDIAは2025年7月にオープンソースのRL学習ライブラリNeMo-RLを公開した。このブログ記事では、NeMo-RLを用いてDeepScaleRのGR...
10/03/2026 blog tech_blog
GRPO reinforcement-learning NVIDIA +4
本記事は arXiv:2412.03603 “HunyuanVideo: A Systematic Framework for Large Video Generation Model” の解説記事です。 論文概要(Abstract) HunyuanVideoは、Tencentが開発した13Bパラメータのオープンソース動画生成モデルである。著者らは、データキュレーション、アーキテクチャ設...
10/03/2026 blog paper
video-generation diffusion-transformer VAE +6
本記事は arXiv:2601.03233 “LTX-2: Efficient Joint Audio-Visual Foundation Model” の解説記事です。 論文概要(Abstract) LTX-2は、Lightricksが2026年1月に公開した、動画と音声を単一のフォワードパスで同時生成するオープンソースの拡散モデルである。著者らは、14Bパラメータの動画ストリームと5...
10/03/2026 blog paper
video-generation audio-visual diffusion-transformer +6
本記事は DAPO: An Open-Source LLM Reinforcement Learning System at Scale の解説記事です。 論文概要(Abstract) DAPOは、GRPOベースの大規模LLM強化学習における4つの実践的欠陥を特定し、それぞれに対する修正手法を提案した研究である。著者ら(ByteDance Seed)は、Clip-Higher(非対称クリ...
10/03/2026 blog paper
GRPO reinforcement-learning LLM +3
本記事は arXiv:2504.12626 “Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models” の解説記事です。この論文はNeurIPS 2025に採択されています。 論文概要(Abstract) FramePackは、Lvmin Zhang(Contro...
10/03/2026 blog paper
video-generation diffusion-model context-compression +5
本記事は DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning の解説記事です。 論文概要(Abstract) DeepSeek-R1は、強化学習(RL)のみでLLMの推論能力を獲得させることに成功した研究である。著者らはまずDeepSeek-R1-Zeroとして、SFTを一切...
10/03/2026 blog paper
GRPO reinforcement-learning LLM +4
本記事は arXiv:2503.03049 “Wan: Open and Advanced Large-Scale Video Generative Models” の解説記事です。 論文概要(Abstract) Wanは、Alibaba(Wan-Video)が開発したオープンソースの大規模動画生成モデル群である。テキストから動画(T2V)および画像から動画(I2V)の両方をサポートし、...
10/03/2026 blog paper
video-generation diffusion-transformer MoE +7