Home
0h-n0 TechBLog
キャンセル

✍️ OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン

ブログ概要(Summary) 本記事は https://cookbook.openai.com/examples/orchestrating_agents の解説記事です。 OpenAIは「Orchestrating Agents: Routines and Handoffs」において、LLMベースのマルチエージェントシステムを構築するための2つの基本パターン――Routines(sys...

📄 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks?

本記事は SWE-bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? (arXiv:2509.16941) の解説記事です。 論文概要(Abstract) SWE-bench Proは、Scale AIが2025年9月に公開したコーディングエージェント評価ベンチマークである。著者らは、従来のSWE...

📄 論文解説: TaskWeaver — コードファーストで実現するステートフルなエージェント実行基盤

論文概要(Abstract) 本記事は https://arxiv.org/abs/2311.17541 の解説記事です。 TaskWeaverは、Microsoft Researchが提案するコードファーストのエージェントフレームワークである。従来のエージェントシステムがツール呼び出しをJSON/文字列ベースで行うのに対し、TaskWeaverはユーザーのリクエストを実行可能なPyth...

📄 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2309.02427 の解説記事です。 Agentsフレームワークは、LLMベースの自律エージェント構築のためのオープンソースライブラリである。著者らは、Standard Operating Procedures(SOP)をYAMLで宣言的に定義し、エージェントのワークフローをステートマシンとして制御する...

📄 EMNLP 2024論文解説: FlowBench — ワークフロー指示に基づくLLMエージェント計画能力の包括的ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2406.06608 の解説記事です。 FlowBenchは、LLMベースエージェントがワークフロー仕様に従って正確にタスクを遂行できるかを包括的に評価するベンチマークである。7ドメイン・51ワークフロー・1,004タスクインスタンスを収録し、ワークフロー仕様をtext(自然言語)・code(疑似コード)...

📄 論文解説: Router-R1 — 強化学習によるマルチLLMルーティングと集約

論文概要(Abstract) 本記事は https://arxiv.org/abs/2506.09033 の解説記事です。 Router-R1(Zhang et al., 2025)は、LLM自体をルーターとして訓練し、複数のLLM候補に対するマルチラウンドルーティングと応答集約を強化学習(RL)で最適化する手法を提案している。従来のLLMルーティングは1対1のマッピング(1クエリ→1モ...

📄 論文解説: Model Context Protocol (MCP) — アーキテクチャとセキュリティの全体像

論文概要(Abstract) 本記事は https://arxiv.org/abs/2503.23278 の解説記事です。 Model Context Protocol(MCP)は、AIモデルと外部ツール・リソース間の双方向通信と動的ディスカバリを標準化するオープンプロトコルである。Hou et al.(2025)は、MCPサーバーの全ライフサイクルをCreation・Deploymen...

📄 論文解説: Llama Guard — LLMベースの入出力安全性ガードレール

論文概要(Abstract) Llama Guardは、人間とAIの対話における安全性を確保するためのLLMベース入出力ガードレールモデルである。著者らはLlama2-7bを安全性リスク分類タクソノミーに基づいてfine-tuneし、ユーザ入力(プロンプト)とLLM出力(レスポンス)の両方を分類するモデルを構築している。Instruction tuning形式を採用することで、新しい安全性...