本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) LLMの評価は、人手アノテーションのコストとスケーラビリティの制約から自動化が求められている。本論文は「LLM-as-a-Judge」——LLM自身を評価者として用いる手法——の妥当性を体系的に検証した研究である。著者らは...
本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) LLMの固定長コンテキストウィンドウは、長期対話やドキュメント分析において深刻な制約となる。MemGPTは、OSの仮想メモリ管理に着想を得た「仮想コンテキスト管理(Virtual Context Management, VCM)」を提案した論文であ...
本記事は AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。 論文概要(Abst...
論文概要 本記事は The Orchestration of Multi-Agent Systems: Architectures, Protocols, and Enterprise Adoption の解説記事です。関連するZenn記事「Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する」も合わせて参照してください。 本論...
本記事は Semantic Kernel: Multi-agent Orchestration — Microsoft DevBlog の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。 ブログ概要(Summary) Microsoft Agent Framewo...
本記事は Microsoft Agent Framework Version 1.0 の解説記事です。 ブログ概要(Summary) MicrosoftのShawn Henry氏(Principal Group Product Manager)が2026年4月3日に公開した本ブログは、Agent Framework 1.0のGA(General Availability)リリースを告知す...
ブログ概要(Summary) 本記事は Integrating AI into Business Processes with the Process Framework の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。Zenn記事ではPython実装に焦点を当て...
本記事は arXiv:2406.12045 “τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains” の解説記事です。 論文概要(Abstract) LLMエージェントのツール使用能力を、ユーザとの動的な会話の中で評価するベンチマークを提案した研究である。著者らは小売(retail)と航空(a...
本記事は ACL 2025 “Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models” の解説記事です。 論文概要(Abstract) 汎用LLMに外部ツールライブラリへの動的アクセス能力を付与するMeta-Toolシステムと、オープンワールド...
本記事は arXiv:2512.24565 “MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use” の解説記事です。 論文概要(Abstract) Model Context Protocol(MCP)を通じたLLMエージェントのツール使用能力を評価するベンチマークを提案した研究...