- 📄 論文解説: On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents
- 📄 論文解説: Rethinking the Reliability of Multi-agent System — ビザンチン障害耐性の視点から
- ✍️ Temporal社ブログ解説: From AI Hype to Durable Reality — AIエージェントに分散システムの規律を
- 📄 論文解説: Where LLM Agents Fail and How They can Learn From Failures
- 📄 論文解説: Towards a Science of AI Agent Reliability
本記事は Agent-as-a-Judge: Evaluate Agents with Agents の解説記事です。 Mingchen Zhuge らが提案した本論文は、ICML 2025 に採択されている。LLM-as-a-Judge の限界を体系的に分析し、ツール使用・マルチステップ推論・メモリを備えた評価エージェントによる新しい評価パラダイム「Agent-as-a-Judge」を提...