📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks

本記事は Measuring Leakage in LLM-based Code Generation Benchmarks (arXiv:2503.01960) の解説記事です。論文概要（Abstract）著者ら（Piotr Szymanski, Piotr Nawrot, Maciej Namysl）は、LLMベースのコード生成ベンチマークにおけるデータリーケージ（データ汚染）を...

24/04/2026 blog paper

data-contamination benchmark LLM +3

📄 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering

本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering (arXiv:2403.07974) の解説記事です。論文概要（Abstract） SWE-agentは、Princeton NLPグループが2024年3月に発表し、NeurIPS 2024に採択されたコーディングエージェントシ...

24/04/2026 blog paper

SWE-agent coding-agent ACI +3

✍️ OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告

本記事は Why we no longer evaluate SWE-bench Verified (OpenAI, 2026年2月23日) の解説記事です。ブログ概要（Summary） 2026年2月23日、OpenAIのFrontier Evalsチーム（Olivia Watkins、Mia Glaese（VP of Research））は、SWE-bench Verifiedのス...

24/04/2026 blog tech_blog

SWE-bench data-contamination benchmark +3

✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン

ブログ概要（Summary）本記事は https://cookbook.openai.com/examples/orchestrating_agents の解説記事です。 OpenAIは「Orchestrating Agents: Routines and Handoffs」において、LLMベースのマルチエージェントシステムを構築するための2つの基本パターン――Routines（sys...

24/04/2026 blog tech_blog

OpenAI agent orchestration +4

📄 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks?

本記事は SWE-bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? (arXiv:2509.16941) の解説記事です。論文概要（Abstract） SWE-bench Proは、Scale AIが2025年9月に公開したコーディングエージェント評価ベンチマークである。著者らは、従来のSWE...

24/04/2026 blog paper

SWE-bench coding-agent benchmark +3

📄 論文解説: AIOS — LLMエージェントのためのオペレーティングシステム

本記事は AIOS: LLM Agent Operating System (arXiv:2403.04121) の解説記事です。論文概要（Abstract） AIOSは、Rutgers大学のKai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhangらが2024年3月に発表したLLMエージェント向けオ...

24/04/2026 blog paper

LLM agent operating-system +3

📄 論文解説: TaskWeaver — コードファーストで実現するステートフルなエージェント実行基盤

論文概要（Abstract）本記事は https://arxiv.org/abs/2311.17541 の解説記事です。 TaskWeaverは、Microsoft Researchが提案するコードファーストのエージェントフレームワークである。従来のエージェントシステムがツール呼び出しをJSON/文字列ベースで行うのに対し、TaskWeaverはユーザーのリクエストを実行可能なPyth...

24/04/2026 blog paper

TaskWeaver agent code-generation +4

📄 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク

論文概要（Abstract）本記事は https://arxiv.org/abs/2309.02427 の解説記事です。 Agentsフレームワークは、LLMベースの自律エージェント構築のためのオープンソースライブラリである。著者らは、Standard Operating Procedures（SOP）をYAMLで宣言的に定義し、エージェントのワークフローをステートマシンとして制御する...

24/04/2026 blog paper

agent SOP statemachine +4

📄 EMNLP 2024論文解説: FlowBench — ワークフロー指示に基づくLLMエージェント計画能力の包括的ベンチマーク

論文概要（Abstract）本記事は https://arxiv.org/abs/2406.06608 の解説記事です。 FlowBenchは、LLMベースエージェントがワークフロー仕様に従って正確にタスクを遂行できるかを包括的に評価するベンチマークである。7ドメイン・51ワークフロー・1,004タスクインスタンスを収録し、ワークフロー仕様をtext（自然言語）・code（疑似コード）...

24/04/2026 blog paper

benchmark workflow LLM +5

✍️ LangGraph Platform GA解説: ステートフルAIエージェントの本番デプロイ基盤

LangGraph Platform GA解説: ステートフルAIエージェントの本番デプロイ基盤ブログ概要（Summary）本記事は https://www.langchain.com/blog/langgraph-platform-ga の解説記事です。 LangChainが2025年5月に発表した LangGraph Platform のGeneral Availability...

23/04/2026 blog tech_blog

LangGraph LangChain AI-agent +3

1
...
59
60
61
...
154
60 / 154