Home
0h-n0 TechBLog
キャンセル

✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding

本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding (Scale AI Blog, 2025年9月19日) の解説記事です。 ブログ概要(Summary) 2025年9月19日、Scale AI Research Teamは、コーディングエージェント評価のための新ベンチマーク「SWE-Bench Pro」を発表した。Scale A...

📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks

本記事は Measuring Leakage in LLM-based Code Generation Benchmarks (arXiv:2503.01960) の解説記事です。 論文概要(Abstract) 著者ら(Piotr Szymanski, Piotr Nawrot, Maciej Namysl)は、LLMベースのコード生成ベンチマークにおけるデータリーケージ(データ汚染)を...

✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン

ブログ概要(Summary) 本記事は https://cookbook.openai.com/examples/orchestrating_agents の解説記事です。 OpenAIは「Orchestrating Agents: Routines and Handoffs」において、LLMベースのマルチエージェントシステムを構築するための2つの基本パターン――Routines(sys...

📄 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks?

本記事は SWE-bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? (arXiv:2509.16941) の解説記事です。 論文概要(Abstract) SWE-bench Proは、Scale AIが2025年9月に公開したコーディングエージェント評価ベンチマークである。著者らは、従来のSWE...

📄 論文解説: TaskWeaver — コードファーストで実現するステートフルなエージェント実行基盤

論文概要(Abstract) 本記事は https://arxiv.org/abs/2311.17541 の解説記事です。 TaskWeaverは、Microsoft Researchが提案するコードファーストのエージェントフレームワークである。従来のエージェントシステムがツール呼び出しをJSON/文字列ベースで行うのに対し、TaskWeaverはユーザーのリクエストを実行可能なPyth...

📄 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2309.02427 の解説記事です。 Agentsフレームワークは、LLMベースの自律エージェント構築のためのオープンソースライブラリである。著者らは、Standard Operating Procedures(SOP)をYAMLで宣言的に定義し、エージェントのワークフローをステートマシンとして制御する...

📄 EMNLP 2024論文解説: FlowBench — ワークフロー指示に基づくLLMエージェント計画能力の包括的ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2406.06608 の解説記事です。 FlowBenchは、LLMベースエージェントがワークフロー仕様に従って正確にタスクを遂行できるかを包括的に評価するベンチマークである。7ドメイン・51ワークフロー・1,004タスクインスタンスを収録し、ワークフロー仕様をtext(自然言語)・code(疑似コード)...