最近の更新
DPO 5
- 論文解説: Direct Preference Optimization (DPO) — 報酬モデル不要のLLMアライメント手法 29/03/2026
- 論文解説: 人間フィードバックによる動画生成の改善 - Flow-DPO/Flow-NRGの統合フレームワーク 11/03/2026
- 論文解説: Prompt-A-Video - 選好整合LLMによる動画拡散モデルのプロンプト最適化 11/03/2026
- 論文解説: VPO - プロンプト最適化によるText-to-Videoモデルのアラインメント 11/03/2026
- 論文解説: CHASE-SQL — マルチパス推論×DPO候補選択でBIRDベンチマーク73.0%を達成したText-to-SQL 23/02/2026