最近の更新
benchmark 79
- 論文解説: グラフ型ベクトル検索の包括的実験評価 — HNSW・DiskANN・RoarGraph・ACORNを同一条件で比較 31/03/2026
- ICML 2025論文解説: BFCL — Berkeley Function Calling Leaderboard 28/03/2026
- 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク 28/03/2026
- NeurIPS 2024論文解説: GTA — 実行可能ツールによる汎用ツールエージェントベンチマーク 28/03/2026
- 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク 28/03/2026
- 論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク 28/03/2026
- 論文解説: MT-Bench — LLM-as-a-Judgeパラダイムの実証分析 24/03/2026
- 論文解説: RGB Benchmark — RAGに必要な4能力の体系的評価 24/03/2026
- 論文解説: FlowBench — LLMエージェントのワークフロー型別評価ベンチマーク 23/03/2026
- ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を評価するベンチマーク 22/03/2026
- ICLR 2025論文解説: MMTEB — Massive Multilingual Text Embedding Benchmark 21/03/2026
- 論文解説: SWE-bench Verified — LLMコーディングエージェント評価の業界標準ベンチマーク 20/03/2026
- 論文解説: ToolBeHonest — ツール使用LLMの幻覚を多層的に診断するベンチマーク 18/03/2026
- 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻防を動的に評価するフレームワーク 17/03/2026
- 論文解説: InjecAgent — ツール統合LLMエージェントに対する間接プロンプトインジェクションのベンチマーク 17/03/2026
- Haystack公式ベンチマーク解説: RAGパイプラインのパラメータチューニングと評価手法 14/03/2026
- 論文解説: RAGBench — 説明可能な4次元メトリクスによるRAGパイプライン評価ベンチマーク 14/03/2026
- 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻撃・防御を動的に評価するフレームワーク 13/03/2026
- 論文解説: GIFT-Eval — 時系列ファウンデーションモデルの包括的ベンチマーク 12/03/2026
- 論文解説: TabArena — テーブルMLの初のLiving Benchmark 12/03/2026
- Kong社ベンチマーク解説: AI Gateway性能比較 — Kong・Portkey・LiteLLMのスループット実測 12/03/2026
- 論文解説: VBench-2.0 - 動画生成モデルの認知・推論能力を評価する次世代ベンチマーク 11/03/2026
- テックブログ解説: Context Rot — 入力トークン増加がLLM性能に与える影響(Chroma Research) 09/03/2026
- 論文解説: LaRA — RAGとロングコンテキストLLMのベンチマーク比較(ICML 2025) 09/03/2026
- 論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク 08/03/2026
- 論文解説: LLM-Inference-Bench — マルチプラットフォームLLM推論ベンチマーク 08/03/2026
- Red Hat技術ブログ解説: KubernetesでvLLMをデプロイしGuideLLMでベンチマークする実践ガイド 08/03/2026
- EMNLP 2025論文解説: RouterEval — LLMルーティング戦略の包括的ベンチマーク 05/03/2026
- Microsoft Research AIOpsLab: AIOps手法の標準化ベンチマーク評価フレームワーク 03/03/2026
- SqueezeBits解説: llguidance vs XGrammar — vLLM/SGLangでの構造化出力ベンチマーク 24/02/2026
- Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク 24/02/2026
- ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較 24/02/2026
- 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク 24/02/2026
- 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク 24/02/2026
- 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク 23/02/2026
- カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク 23/02/2026
- 論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク 23/02/2026
- 論文解説: JSONSchemaBench — 10K実世界スキーマによるLLM構造化出力ベンチマーク 23/02/2026
- 論文解説: ALCE — LLMの引用付きテキスト生成を自動評価するベンチマーク 23/02/2026
- 論文解説: MTEB — 56データセット×8タスクでEmbeddingモデルを統一評価するベンチマーク 23/02/2026
- 論文解説: HELMET — 51モデルで検証する長コンテキストLLMの効果的な評価フレームワーク 22/02/2026
- 論文解説: LoCoBench-Agent — 長文コンテキストソフトウェア工学における対話型LLMエージェントベンチマーク 22/02/2026
- サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析 22/02/2026
- 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク 22/02/2026
- 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価 22/02/2026
- LangChain公式解説: マルチエージェントアーキテクチャのベンチマーク — Supervisor vs Swarm vs 単一エージェント 22/02/2026
- ICLR 2025 Spotlight論文解説: TheAgentCompany — 実世界タスクでのLLMエージェントベンチマーク 22/02/2026
- 論文解説: LLMエージェント評価・ベンチマークの包括的サーベイ(KDD 2025) 22/02/2026
- CVPR 2024論文解説: MMMU — 大規模マルチモーダル理解・推論ベンチマーク 22/02/2026
- Google解説: Gemini 2.5の動画理解 — VideoMME 85.2%達成のマルチモーダル技術詳細 22/02/2026
- ICLR 2025論文解説: JudgeBench --- LLM-as-Judgeの評価ベンチマーク 22/02/2026
- 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価 22/02/2026
- 論文解説: MCPBench — MCPサーバのレイテンシ・信頼性を体系的に評価するベンチマーク 22/02/2026
- 論文解説: Agent-as-a-Judge — エージェントでエージェントを評価する 22/02/2026
- 論文解説: RouterBench — LLMルーターの包括的ベンチマークによるマルチソースルーティング最適化 22/02/2026
- 論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック 22/02/2026
- 論文解説: Benchmarking Large Language Models for Vulnerability Detection — LLM脆弱性検出の定量評価 21/02/2026
- 論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する 21/02/2026
- 論文解説: MLE-bench — 75のKaggleコンペでMLエンジニアリングエージェントを評価する 21/02/2026
- 論文解説: RAGLAB — RAGアルゴリズムの公平比較を実現するモジュラー研究フレームワーク 21/02/2026
- 論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク 21/02/2026
- 論文解説: τ-bench — ツール・エージェント・ユーザー三者間対話の信頼性ベンチマーク 21/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を評価する 21/02/2026
- 論文解説: RULER — Needle-in-a-Haystackの先にあるロングコンテキストLLM評価の決定版 20/02/2026
- 論文解説: JOrthoBench — 日本語表記ゆれによるLLM評価の盲点を暴く 19/02/2026
- 論文解説: RouterBench — LLMルーター評価のための標準ベンチマーク 19/02/2026
- NVIDIA技術ブログ解説: Mastering LLM Techniques: Evaluation — LLM・RAG評価の包括的ガイド 19/02/2026
- AWS公式解説: pgvectorインデックス最適化ガイド — IVFFlatとHNSWの深掘り 19/02/2026
- 論文解説: pgvectorscale — PostgreSQLをAIアプリケーション向けにスケールさせる拡張 19/02/2026
- 論文解説: Survey of Vector Database Management Systems 19/02/2026
- 論文解説: NoLiMa — 非リテラルマッチングで暴くLLM長文理解の真の限界 18/02/2026
- 論文解説: State of What Art? — マルチプロンプトLLM評価の必要性 18/02/2026
- NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
- 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026
- COLING 2025論文解説: Benchmark Self-Evolving — マルチエージェントによる動的LLM評価フレームワーク 17/02/2026
- 論文解説: PromptBench — LLM評価を統一するベンチマークライブラリの設計と実装 17/02/2026
- Google Research最新論文:マルチエージェントシステムのスケーリング法則 - いつ、なぜ有効か 16/02/2026
- 論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク 15/02/2026