- ✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding
- 📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks
- 📄 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
- ✍️ OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告
- ✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン
本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding (Scale AI Blog, 2025年9月19日) の解説記事です。 ブログ概要(Summary) 2025年9月19日、Scale AI Research Teamは、コーディングエージェント評価のための新ベンチマーク「SWE-Bench Pro」を発表した。Scale A...