最近の更新
- ✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding
- 📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks
- 📄 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
- ✍️ OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告
- ✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン