本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding(Scale Research Team, 2025年9月)の解説記事です。 ブログ概要(Summary) SWE-Bench Proは、Scale AIのResearchチームが2025年9月に公開したLLMコーディングベンチマークである。従来のSWE-Bench Verifie...
本記事は arXiv:2410.10347 A Unified Approach to Routing and Cascading for LLMs の解説記事です。 論文概要(Abstract) 本論文は、LLM推論コスト削減の2大戦略であるルーティングとカスケードを統合する理論的フレームワーク「UniRouter」を提案している。著者らは統合手法が各単独手法と少なくとも同等以上の性能...
論文概要(Abstract) 本論文「Data Contamination Through the Lens of Time」は、大規模言語モデル(LLM)の訓練データにベンチマークデータが混入する「データ汚染(Data Contamination)」の問題を、時系列分析の観点から定量的に検証した研究である。著者らは、GPTモデルの訓練データカットオフ日を自然実験として活用し、カットオフ前...
本記事は arXiv:2506.22716 BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute の解説記事です。 論文概要(Abstract) BEST-Route(Best-of-N Efficient Sampling and Test-time Routing)は、LLMルーティングをモデル選択とサンプル数...
論文概要(Abstract) 大規模言語モデル(LLM)によるコード生成の性能評価において、既存ベンチマークのテストケース不足が深刻な問題であることを明らかにした論文である。著者らは、OpenAIが公開したHumanEval(164問のPythonプログラミング問題)に対し、LLMベースの生成と型認識ミューテーションを組み合わせた自動テスト入力生成により、テストケースを80倍に拡張したHu...
本記事は Evaluating Large Language Models Trained on Code(Chen et al., 2021; OpenAI)の解説記事です。 論文概要(Abstract) 本論文はOpenAIのCodex(GPT-3ベースのコード生成モデル)と共に、HumanEvalデータセット(164問の手書きPythonプログラミング問題)およびpass@k評価指...
論文概要(Abstract) LLMベンチマークにおけるテストセット汚染(contamination)とLLM-as-a-Judgeの主観性バイアスは、評価の信頼性を損なう深刻な課題である。LiveBenchは、(1) 最新の情報源から毎月問題を更新し、(2) 客観的な正解に基づく自動採点を行い、(3) 数学・コーディング・推論・データ分析・指示追従・言語理解の6カテゴリ18タスクで多面的...
本記事は BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions(Zhuo et al., 2024)の解説記事です。 論文概要(Abstract) BigCodeBenchは、HumanEvalの飽和問題に対処するために設計されたコード生成ベンチマーク...
本記事は arXiv:2404.14618 Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing の解説記事です。 論文概要(Abstract) Hybrid LLMは、弱いが安価なモデルと強力だが高コストなモデルを組み合わせ、ルーターによってクエリごとにモデルを切り替える推論システムである。著者らは品質制約を明示的にモデル...
本記事は LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code(Jain et al., 2024)の解説記事です。 論文概要(Abstract) LiveCodeBenchは、LeetCode・AtCoder・CodeForcesの新着問題を継続的に収集する...