最近の更新
CI/CD 9
- Anthropic: AIエージェント評価の実践ガイド — Demystifying Evals 22/02/2026
- 論文解説: DSPy — 宣言的LMパイプラインを自動コンパイルするフレームワーク 18/02/2026
- 論文解説: PromptOps — プロダクション向けプロンプトバージョニングとライフサイクル管理 18/02/2026
- 論文解説: Quality Gates in LLM Development — 評価からデプロイまでの品質ゲート体系 18/02/2026
- AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド 17/02/2026
- Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク 17/02/2026
- Microsoft Research解説: LLM評価のための完全メトリクスフレームワーク — GPU利用率からユーザー満足度まで 17/02/2026
- NVIDIA技術ブログ解説: GitOpsベースLLMOpsパイプラインによるモデル評価の自動化 17/02/2026
- USENIX事例報告: CI/CDにLLM推論を組み込んだ際の信頼性問題と5つのガードレール設計 17/02/2026