最近の更新
- 📄 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善
- ✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding
- 📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks
- 📄 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
- ✍️ OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告