最近の更新
testing 12
- 論文解説: A Taxonomy of AgentOps for Language Model Agents 12/05/2026
- 論文解説: ExecutionAgent — LLMエージェントによる任意プロジェクトのテスト自動実行 07/05/2026
- OpenAI解説: Testing Agent Skills Systematically — AIエージェントのスキル評価を体系化する 19/04/2026
- Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール 28/03/2026
- 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク 28/03/2026
- 論文解説: Evaluation-Driven Development and Operations(EDD)— LLMエージェントのライフサイクル評価統合パラダイム 19/02/2026
- 論文解説: When Better Prompts Hurt — 評価駆動プロンプト開発(EDPD)フレームワーク 19/02/2026
- AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド 17/02/2026
- NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
- 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
- Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026