最近の更新
testing 9
- Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール 28/03/2026
- 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク 28/03/2026
- 論文解説: Evaluation-Driven Development and Operations(EDD)— LLMエージェントのライフサイクル評価統合パラダイム 19/02/2026
- 論文解説: When Better Prompts Hurt — 評価駆動プロンプト開発(EDPD)フレームワーク 19/02/2026
- AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド 17/02/2026
- NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
- 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
- Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026