deeplearning 52

最近の更新

📄 論文解説: Automated Structural Testing of LLM-Based Agents — トレース・モック・アサーションによる構造テスト手法
05/07/2026
blog
structural-testing llm-agents
📄 ICML 2026論文解説: Beyond the Final Answer — ツール利用エージェントの推論軌跡を参照フリーで評価するTRACEフレームワーク
05/07/2026
blog
trajectory-evaluation reference-free
📄 ACL 2026論文解説: AgentEval — DAG構造によるステップレベルエージェント評価とエラー伝播追跡
05/07/2026
blog
agent-evaluation dag
📄 論文解説: Judging the Judges — LLM-as-a-Judgeパイプラインにおけるバイアス緩和戦略の体系的評価
05/07/2026
blog
llm-as-judge evaluation-bias
📄 論文解説: TRAJECT-Bench — エージェントのツール使用軌跡を細粒度で評価するベンチマーク
05/07/2026
blog
trajectory-evaluation agent-benchmark

人気のタグ

LLM agent RAG llm python multi-agent ai evaluation benchmark langgraph

人気のタグ

LLM agent RAG llm python multi-agent ai evaluation benchmark langgraph

新しいバージョンのコンテンツが利用可能です。