Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善

本記事は Let’s Verify Step by Step (arXiv:2305.20050) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)の数学的推論能力を向上させるために、推論プロセスに対するフィードバック手法を比較した研究である。著者らは、最終回答の正誤のみを評価するOutcome supervision(結果監督)と、各推論ステップを個別に評価す...

✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding

本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding (Scale AI Blog, 2025年9月19日) の解説記事です。 ブログ概要(Summary) 2025年9月19日、Scale AI Research Teamは、コーディングエージェント評価のための新ベンチマーク「SWE-Bench Pro」を発表した。Scale A...

📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks

本記事は Measuring Leakage in LLM-based Code Generation Benchmarks (arXiv:2503.01960) の解説記事です。 論文概要(Abstract) 著者ら(Piotr Szymanski, Piotr Nawrot, Maciej Namysl)は、LLMベースのコード生成ベンチマークにおけるデータリーケージ(データ汚染)を...

✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン

ブログ概要(Summary) 本記事は https://cookbook.openai.com/examples/orchestrating_agents の解説記事です。 OpenAIは「Orchestrating Agents: Routines and Handoffs」において、LLMベースのマルチエージェントシステムを構築するための2つの基本パターン――Routines(sys...

📄 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks?

本記事は SWE-bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? (arXiv:2509.16941) の解説記事です。 論文概要(Abstract) SWE-bench Proは、Scale AIが2025年9月に公開したコーディングエージェント評価ベンチマークである。著者らは、従来のSWE...

📄 論文解説: TaskWeaver — コードファーストで実現するステートフルなエージェント実行基盤

論文概要(Abstract) 本記事は https://arxiv.org/abs/2311.17541 の解説記事です。 TaskWeaverは、Microsoft Researchが提案するコードファーストのエージェントフレームワークである。従来のエージェントシステムがツール呼び出しをJSON/文字列ベースで行うのに対し、TaskWeaverはユーザーのリクエストを実行可能なPyth...

📄 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2309.02427 の解説記事です。 Agentsフレームワークは、LLMベースの自律エージェント構築のためのオープンソースライブラリである。著者らは、Standard Operating Procedures(SOP)をYAMLで宣言的に定義し、エージェントのワークフローをステートマシンとして制御する...