Home
0h-n0 TechBLog
キャンセル

✍️ Anthropic公式ブログ解説: Code Execution with MCP — コード実行によるエージェント効率の98.7%トークン削減

本記事は https://www.anthropic.com/engineering/code-execution-with-mcp の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングブログ「Code Execution with MCP」(2025年11月4日公開)は、Model Context Protocol(MCP)のツール定義をコードAPI形式...

✍️ Google公式ブログ解説: Agent2Agent (A2A) プロトコル — エージェント間相互運用の新標準

本記事は https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/ の解説記事です。 ブログ概要(Summary) 2025年4月9日、GoogleはAgent2Agent(A2A)プロトコルを公式に発表した。A2Aは、異なるフレームワークやプロバイダで構築されたAIエージェント同士が安全に...

📄 NeurIPS 2024論文解説: iAgents — 情報非対称下でのマルチエージェント自律協調とInfoNavメカニズム

本記事は https://arxiv.org/abs/2406.14928 の解説記事です。 論文概要(Abstract) iAgents(Informative Multi-Agent Systems)は、情報非対称(Information Asymmetry)条件下でLLMマルチエージェントが自律的に協調タスクを遂行するためのフレームワークである。著者らは、各エージェントが関連する人...

📄 ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を通信トポロジごとに定量評価

本記事は https://aclanthology.org/2025.acl-long.421/ の解説記事です。 論文概要(Abstract) MultiAgentBenchは、LLMベースのマルチエージェントシステムの協調と競争の能力を多角的に評価するために設計された包括的ベンチマークフレームワークである。著者らは、従来のベンチマークが単一エージェントタスクに集中しているか、マルチエ...

📄 論文解説: A Survey of AI Agent Protocols — MCP・A2Aを含むエージェントプロトコルの体系的分類

本記事は https://arxiv.org/abs/2504.16736 の解説記事です。 論文概要(Abstract) 「A Survey of AI Agent Protocols」は、LLMベースのAIエージェントが外部ツールや他のエージェントと通信するためのプロトコルを体系的に分類・比較した包括的サーベイ論文である。著者らは、現在のエージェント開発において標準化された通信プロト...

📄 論文解説: τ-bench — ツール・エージェント・ユーザー三者間インタラクションの評価ベンチマーク

本記事は τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains の解説記事です。 論文概要(Abstract) 既存のLLMエージェントベンチマークは、ツール使用を孤立した環境で評価するか、静的な入出力ペアで測定するため、現実世界の動的なエージェント-ユーザー間インタラクションを捉えられない。...

📄 論文解説: Mem0 — 本番運用を見据えたAIエージェント長期記憶レイヤーの設計と評価

本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory の解説記事です。 論文概要(Abstract) LLMの固定長コンテキスト制約は、長期間にわたるエージェント対話において一貫性と個別化の維持を困難にする。Mem0は、アプリケーションコードとLLMの間に「マネージドメモリレイヤー」を挿...

📄 ICML 2024論文解説: Larimar — 脳着想エピソード記憶によるLLMの動的知識更新

本記事は Larimar: Large Language Models with Episodic Memory Control (ICML 2024) の解説記事です。 論文概要(Abstract) LLMの知識を更新するには通常、再訓練やファインチューニングが必要であり、計算コストが高い。Larimarは、脳の補完学習システム(Complementary Learning Syste...

📄 論文解説: Judging LLM-as-a-Judge — MT-BenchとChatbot Arenaによる自動評価の体系的検証

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) LLMの評価は、人手アノテーションのコストとスケーラビリティの制約から自動化が求められている。本論文は「LLM-as-a-Judge」——LLM自身を評価者として用いる手法——の妥当性を体系的に検証した研究である。著者らは...

📄 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理

本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) LLMの固定長コンテキストウィンドウは、長期対話やドキュメント分析において深刻な制約となる。MemGPTは、OSの仮想メモリ管理に着想を得た「仮想コンテキスト管理(Virtual Context Management, VCM)」を提案した論文であ...