本記事は τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains の解説記事です。 論文概要(Abstract) 既存のLLMエージェントベンチマークは、ツール使用を孤立した環境で評価するか、静的な入出力ペアで測定するため、現実世界の動的なエージェント-ユーザー間インタラクションを捉えられない。...
本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory の解説記事です。 論文概要(Abstract) LLMの固定長コンテキスト制約は、長期間にわたるエージェント対話において一貫性と個別化の維持を困難にする。Mem0は、アプリケーションコードとLLMの間に「マネージドメモリレイヤー」を挿...
本記事は Larimar: Large Language Models with Episodic Memory Control (ICML 2024) の解説記事です。 論文概要(Abstract) LLMの知識を更新するには通常、再訓練やファインチューニングが必要であり、計算コストが高い。Larimarは、脳の補完学習システム(Complementary Learning Syste...
本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) LLMの評価は、人手アノテーションのコストとスケーラビリティの制約から自動化が求められている。本論文は「LLM-as-a-Judge」——LLM自身を評価者として用いる手法——の妥当性を体系的に検証した研究である。著者らは...
本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) LLMの固定長コンテキストウィンドウは、長期対話やドキュメント分析において深刻な制約となる。MemGPTは、OSの仮想メモリ管理に着想を得た「仮想コンテキスト管理(Virtual Context Management, VCM)」を提案した論文であ...
本記事は AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。 論文概要(Abst...
論文概要 本記事は The Orchestration of Multi-Agent Systems: Architectures, Protocols, and Enterprise Adoption の解説記事です。関連するZenn記事「Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する」も合わせて参照してください。 本論...
本記事は Semantic Kernel: Multi-agent Orchestration — Microsoft DevBlog の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。 ブログ概要(Summary) Microsoft Agent Framewo...
本記事は Microsoft Agent Framework Version 1.0 の解説記事です。 ブログ概要(Summary) MicrosoftのShawn Henry氏(Principal Group Product Manager)が2026年4月3日に公開した本ブログは、Agent Framework 1.0のGA(General Availability)リリースを告知す...
ブログ概要(Summary) 本記事は Integrating AI into Business Processes with the Process Framework の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。Zenn記事ではPython実装に焦点を当て...