Home
0h-n0 TechBLog
キャンセル

📄 論文解説: VBench-2.0 - 動画生成モデルの認知・推論能力を評価する次世代ベンチマーク

本記事は VBench-2.0: Advancing Video Generation Benchmark Suite for Thinking (arXiv:2503.21755) の解説記事です。 論文概要(Abstract) VBench-2.0は、動画生成モデルの評価を従来の画質・モーション品質から、高次の認知能力・推論能力へと拡張した次世代ベンチマークである。5大カテゴリ(Hu...

📄 論文解説: GEPA — 反省的プロンプト進化が強化学習を超える(ICLR 2026 Oral)

本記事は GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning (arXiv:2507.19457) の解説記事です。 論文概要(Abstract) GEPAは、LLMに実行トレース(推論過程、ツール呼び出し、出力)を分析させ、自然言語で「反省(reflection)」を行うことでプロンプトを進化的...

📄 論文解説: TextGrad — テキストによる自動微分でLLMパイプラインを最適化する

本記事は TextGrad: Automatic “Differentiation” via Text (arXiv:2406.07496) の解説記事です。 論文概要(Abstract) TextGradは、LLMを用いた「テキスト空間での自動微分」を実現するフレームワークである。著者らは、複合AIシステム内の各コンポーネントに対し、LLMが自然言語でフィードバック(テキスト勾配)を生...

📄 PLDI 2024論文解説: Cedar — 表現力・高速・安全・解析可能を両立した認可言語の設計と実装

本記事は arXiv:2403.04651 “Cedar: A New Language for Expressive, Fast, Safe, and Analyzable Authorization”(PLDI 2024採択)の解説記事です。 論文概要(Abstract) Cedarは、認可ポリシーを記述するためのオープンソースプログラミング言語である。principal(主体)がr...

📄 論文解説: VPO - プロンプト最適化によるText-to-Videoモデルのアラインメント

本記事は VPO: Aligning Text-to-Video Generation Models with Prompt Optimization (arXiv:2503.20491) の解説記事です。 論文概要(Abstract) Text-to-Video(T2V)モデルは訓練時に詳細なキャプションで学習されるが、ユーザーが入力するプロンプトは短く曖昧であることが多い。このギャッ...

📄 論文解説: Agent-R — エピソード記憶を用いたリアルタイムリフレクションでLLMエージェントの誤り訂正を効率化する

本記事は arXiv:2501.04682 “Agent-R: Training Language Model Agents to Reflect via In-Context Episodic Memory” の解説記事です。 論文概要(Abstract) Agent-Rは、LLMベースのエージェントがタスク実行中にリアルタイムで誤りを検出し、エピソード記憶を用いてバックトラックする反...