最近の更新
testing 5
- AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド 17/02/2026
- NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
- 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
- Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026