最近の更新
metrics 7
- 論文解説: Beyond Task Completion — エージェントAI評価の4柱フレームワーク 17/06/2026
- OpenTelemetry公式ブログ解説: Inside the LLM Call — GenAI Observability with OpenTelemetry 17/06/2026
- 論文解説: Towards a Science of AI Agent Reliability 17/06/2026
- Inside the LLM Call: OpenTelemetry GenAI Semantic Conventionsによるエージェントオブザーバビリティの実践 23/05/2026
- 論文解説: RAGAS — 参照フリーRAGパイプライン自動評価フレームワーク 21/02/2026
- Microsoft Research解説: How to Evaluate LLMs — 本番LLM評価のための完全メトリクスフレームワーク 18/02/2026
- Microsoft Research解説: LLM評価のための完全メトリクスフレームワーク — GPU利用率からユーザー満足度まで 17/02/2026