agent 113

論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク 28/03/2026
Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール 28/03/2026
論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク 28/03/2026
Google Research解説: エージェントシステムのスケーリング科学 — マルチエージェントが機能する条件と失敗する条件の定量分析 28/03/2026
NeurIPS 2024論文解説: GTA — 実行可能ツールによる汎用ツールエージェントベンチマーク 28/03/2026
Anthropic Engineering解説: マルチエージェント研究システムの設計と実装 — 単一エージェント比90.2%の性能向上を実現したアーキテクチャ 28/03/2026
論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク 28/03/2026
論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク 28/03/2026
論文解説: FluxMem — Beta混合モデルによる適応的メモリ構造選択フレームワーク 25/03/2026
論文解説: Memori — セマンティックトリプルで実現する高精度・低コストLLMエージェント記憶層 25/03/2026
論文解説: A-MAC — 5因子構造化判定によるLLMエージェントの適応的メモリ入力制御 25/03/2026
Anthropic解説: Code Execution with MCP — AIエージェントのトークン消費98.7%削減手法 23/03/2026
論文解説: FlowBench — LLMエージェントのワークフロー型別評価ベンチマーク 23/03/2026
論文解説: Tool-Augmented LLMs — 統合アーキテクチャと障害パターンのサーベイ 23/03/2026
IJCAI 2024論文解説: Large Language Model based Multi-Agents — LLMマルチエージェントの進展と課題の包括的サーベイ 22/03/2026
NeurIPS 2023論文解説: Toolformer — 言語モデルが自らツール使用を学習する自己教師あり手法 22/03/2026
ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を評価するベンチマーク 22/03/2026
論文解説: Multi-Agent Collaboration Mechanisms — LLMベースマルチエージェント協調メカニズムの体系的サーベイ 22/03/2026
論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション構築フレームワーク 22/03/2026
論文解説: PALADIN — 障害事例バンクによるLLMエージェントのツール障害自己修正フレームワーク 21/03/2026
JetBrains Research解説: LLMエージェントのコンテキスト管理 — Observation MaskingとLLM要約の比較 20/03/2026
Redis AI Agent Memory: ステートフルAIシステムのためのメモリアーキテクチャ解説 20/03/2026
論文解説: OpenHands — An Open Platform for AI Software Agents 20/03/2026
論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering 20/03/2026
論文解説: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use 18/03/2026
論文解説: LLM Agents Making Agent Tools — 研究論文からツールを自動構築するToolMaker 18/03/2026
論文解説: ToolACE — LLM Function Calling訓練データの自動生成パイプライン 18/03/2026
論文解説: Efficient Tool Use with Chain-of-Abstraction Reasoning 18/03/2026
論文解説: Towards Model-Native Agentic AI — パイプライン型からモデルネイティブ型へのパラダイムシフト 14/03/2026
ACL 2024論文解説: When is Tree Search Useful for LLM Planning? — 木探索の有効性条件 14/03/2026
Anthropic Research解説: Building Effective AI Agents — エージェント設計パターンの実践ガイド 14/03/2026
論文解説: Agent Design Pattern Catalogue — 基盤モデルエージェントの18アーキテクチャパターン 14/03/2026
論文解説: Empowering Working Memory for LLM Agents — 作業記憶の動的管理 14/03/2026
ICDE 2025論文解説: Compound AIシステムのBlueprint Architecture — エージェントとデータのオーケストレーション設計 14/03/2026
論文解説: Reflexion — 言語エージェントのための言語的強化学習 14/03/2026
OpenAI Cookbook解説: Self-Evolving Agents — 自律的プロンプト最適化による自己進化エージェント 09/03/2026
論文解説: Kubernetes環境における自律エージェントの会話型インターフェース 09/03/2026
論文解説: EvoAgent — 継続的探索によるエージェント自己進化フレームワーク 09/03/2026
AWS公式ブログ解説: Amazon Bedrock AgentCore RuntimeにおけるA2Aプロトコルサポート 08/03/2026
論文解説: MCP Safety Audit — MCPエコシステムのセキュリティ脅威分類とLLM脆弱性評価 08/03/2026
Anthropic公式ブログ解説: Model Context Protocolの寄贈とAgentic AI Foundationの設立 08/03/2026
論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク 08/03/2026
Google Developers Blog解説: Agent2Agent (A2A) Protocol — AIエージェント間相互運用の新標準 08/03/2026
論文解説: A Survey of Agent Interoperability Protocols — MCP・ACP・A2A・ANPの比較分析 08/03/2026
AAAI 2024論文解説: ExpeL - 経験学習によるLLMエージェントの自律的知識獲得 06/03/2026
NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ管理 06/03/2026
論文解説: Generative Agents - エピソード記憶とリフレクションによる信頼性のある行動シミュレーション 06/03/2026
論文解説: Mem0 - 本番対応AIエージェントのためのスケーラブル長期記憶 06/03/2026
AWS公式ブログ解説: Bedrock AgentCoreエピソード記憶でエージェントに経験学習能力を付与する 06/03/2026
論文解説: AutoTool — グラフベースのツール遷移確率によるLLMエージェントの効率的ツール選択 05/03/2026
論文解説: Toolshed — RAG-Tool Fusionによる大規模ツール選択のスケーリング手法 05/03/2026
論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュの最適設計 05/03/2026
Anthropic Advanced Tool Use解説: Tool Search Tool・Programmatic Tool Callingによるエージェント最適化 05/03/2026
論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ 05/03/2026
論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ 05/03/2026
論文解説: SWE-agent — Agent-Computer Interface設計がLLMエージェントのソフトウェアエンジニアリング性能を決める 28/02/2026
Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム 24/02/2026
論文解説: CodeAct — 実行可能コードでLLMエージェントの行動空間を統一する 24/02/2026
論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減 24/02/2026
論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ 24/02/2026
ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合 24/02/2026
NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント 24/02/2026
カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク 23/02/2026
論文解説: CoALA — 認知アーキテクチャに基づくLLMエージェントのメモリ分類体系 23/02/2026
論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク 23/02/2026
ブログ解説: NVIDIA NeMo Retriever NIMsでAgentic RAGパイプラインを構築する 23/02/2026
AWS公式解説: Letta（旧MemGPT）がAurora PostgreSQL + pgvectorでプロダクション向けAIエージェントを構築する方法 23/02/2026
Anthropic解説: Model Context Protocol (MCP) — AIアシスタントと外部データを接続する標準プロトコル 23/02/2026
論文解説: MemEngine — LLMエージェントメモリの統一モジュラーフレームワーク 23/02/2026
論文解説: Mem0 — ベクトルDB×グラフDBで実現するプロダクション向けLLMエージェント長期記憶 23/02/2026
サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類 23/02/2026
論文解説: MemGPT — OS仮想メモリ概念でLLMエージェントの長期記憶を実現する 23/02/2026
NeurIPS 2025論文解説: A-MEM — Zettelkasten方式によるLLMエージェントの自律的メモリ管理 23/02/2026
Anthropic解説: Building Effective Agents — 5つの構成パターンとエージェント設計の実践原則 22/02/2026
論文解説: HELMET — 51モデルで検証する長コンテキストLLMの効果的な評価フレームワーク 22/02/2026
論文解説: LoCoBench-Agent — 長文コンテキストソフトウェア工学における対話型LLMエージェントベンチマーク 22/02/2026
論文解説: LLM-based ACR — 14モデル×8データセットによる自動コードレビューの実証研究 22/02/2026
論文解説: Don't Break the Cache — プロンプトキャッシュのエージェントタスクにおける体系的評価 22/02/2026
サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析 22/02/2026
論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価 22/02/2026
NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行 22/02/2026
論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる 22/02/2026
論文解説: OctoTools — DAG並列実行で推論時間47%削減の拡張可能なエージェントフレームワーク 22/02/2026
論文解説: MCP-Zero — MCPエージェントのための能動的ツール発見フレームワーク 22/02/2026
Anthropic: AIエージェント評価の実践ガイド — Demystifying Evals 22/02/2026
論文解説: MCPBench — MCPサーバのレイテンシ・信頼性を体系的に評価するベンチマーク 22/02/2026
論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する 21/02/2026
論文解説: MLE-bench — 75のKaggleコンペでMLエンジニアリングエージェントを評価する 21/02/2026
論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク 21/02/2026
論文解説: τ-bench — ツール・エージェント・ユーザー三者間対話の信頼性ベンチマーク 21/02/2026
NVIDIA解説: Agent Morpheus — 生成AIによるエンタープライズCVE分析の自動化 21/02/2026
論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を評価する 21/02/2026
Anthropic解説: Effective Context Engineering for AI Agents — LLMの注意予算を最適化する実践戦略 20/02/2026
論文解説: Kimi K2 — 1兆パラメータMoE+MuonClipで実現するオープンエージェント知能 19/02/2026
論文解説: Evaluation-Driven Development and Operations（EDD）— LLMエージェントのライフサイクル評価統合パラダイム 19/02/2026
LangChain公式ブログ解説: エージェントのためのContext Engineering — Write/Select/Compress/Isolate実装ガイド 18/02/2026
論文解説: ACON — 自然言語ガイドライン最適化による長期LLMエージェントのコンテキスト圧縮 18/02/2026
論文解説: LLMエージェントのメモリ機構サーベイ — 記憶の源泉・形式・操作の統一的分類 18/02/2026
論文解説: MemGPT — OS仮想メモリをLLMに適用し無限コンテキストを実現するアーキテクチャ 18/02/2026
Anthropic公式ガイド解説: AIエージェントのためのContext Engineering — 4戦略と実装パターン 18/02/2026
論文解説: The Complexity Trap — Observation MaskingはLLM要約と同等以上のコンテキスト管理効率を実現する 18/02/2026
AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド 17/02/2026
NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク 17/02/2026
論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026
NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化する操り人形師パラダイム 17/02/2026
NVIDIA ToolOrchestra: 小型モデルで大型LLMを指揮する — Orchestrator-8Bの強化学習ベースオーケストレーション 17/02/2026
Magentic-One: Microsoft発の汎用マルチエージェントシステム — Orchestrator+4専門エージェントによるタスク解決 17/02/2026
論文解説: ReAct - Synergizing Reasoning and Acting in Language Models 16/02/2026
Anthropic Agent Skills解説：プロダクション環境でのLLMエージェント拡張戦略 15/02/2026
カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化 15/02/2026
論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク 15/02/2026