Home
0h-n0 TechBLog
キャンセル

✍️ Scale AI SWE-Bench Pro解説: データ汚染耐性を備えた次世代コーディングベンチマークの設計と結果

本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding(Scale Research Team, 2025年9月)の解説記事です。 ブログ概要(Summary) SWE-Bench Proは、Scale AIのResearchチームが2025年9月に公開したLLMコーディングベンチマークである。従来のSWE-Bench Verifie...

📄 論文解説: ルーティングとカスケードの統合フレームワーク — 理論最適性の証明と実践

本記事は arXiv:2410.10347 A Unified Approach to Routing and Cascading for LLMs の解説記事です。 論文概要(Abstract) 本論文は、LLM推論コスト削減の2大戦略であるルーティングとカスケードを統合する理論的フレームワーク「UniRouter」を提案している。著者らは統合手法が各単独手法と少なくとも同等以上の性能...

📄 論文解説: Data Contamination Through the Lens of Time — LLMベンチマーク汚染の時系列分析

論文概要(Abstract) 本論文「Data Contamination Through the Lens of Time」は、大規模言語モデル(LLM)の訓練データにベンチマークデータが混入する「データ汚染(Data Contamination)」の問題を、時系列分析の観点から定量的に検証した研究である。著者らは、GPTモデルの訓練データカットオフ日を自然実験として活用し、カットオフ前...

📄 論文解説: EvalPlus — コード生成LLMの厳密な評価フレームワーク

論文概要(Abstract) 大規模言語モデル(LLM)によるコード生成の性能評価において、既存ベンチマークのテストケース不足が深刻な問題であることを明らかにした論文である。著者らは、OpenAIが公開したHumanEval(164問のPythonプログラミング問題)に対し、LLMベースの生成と型認識ミューテーションを組み合わせた自動テスト入力生成により、テストケースを80倍に拡張したHu...

📄 論文解説: Evaluating Large Language Models Trained on Code — HumanEvalとpass@kの原点

本記事は Evaluating Large Language Models Trained on Code(Chen et al., 2021; OpenAI)の解説記事です。 論文概要(Abstract) 本論文はOpenAIのCodex(GPT-3ベースのコード生成モデル)と共に、HumanEvalデータセット(164問の手書きPythonプログラミング問題)およびpass@k評価指...

📄 論文解説: LiveBench — データ汚染に耐性を持つ動的LLMベンチマーク

論文概要(Abstract) LLMベンチマークにおけるテストセット汚染(contamination)とLLM-as-a-Judgeの主観性バイアスは、評価の信頼性を損なう深刻な課題である。LiveBenchは、(1) 最新の情報源から毎月問題を更新し、(2) 客観的な正解に基づく自動採点を行い、(3) 数学・コーディング・推論・データ分析・指示追従・言語理解の6カテゴリ18タスクで多面的...

📄 論文解説: Hybrid LLM — 品質制約付きコスト効率的クエリルーティング

本記事は arXiv:2404.14618 Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing の解説記事です。 論文概要(Abstract) Hybrid LLMは、弱いが安価なモデルと強力だが高コストなモデルを組み合わせ、ルーターによってクエリごとにモデルを切り替える推論システムである。著者らは品質制約を明示的にモデル...