- 📄 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善
- ✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding
- 📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks
- 📄 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
- ✍️ OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告
本記事は Let’s Verify Step by Step (arXiv:2305.20050) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)の数学的推論能力を向上させるために、推論プロセスに対するフィードバック手法を比較した研究である。著者らは、最終回答の正誤のみを評価するOutcome supervision(結果監督)と、各推論ステップを個別に評価す...