論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック

論文概要（Abstract）

MMMU-Proは、MMMUベンチマークの堅牢性を強化した評価フレームワークである。著者らは3段階のパイプライン（テキストのみ正解可能な問題の除外、選択肢の10択への拡張、Vision-Only入力設定の導入）を通じて構築した。18のモデルを評価した結果、MMMUからMMMU-Proへの移行で16.8%〜26.9%の性能低下が観察された。また、Vision-Only設定においてOCR能力がモデル性能の重要なボトルネックとなることが報告されている。

この記事は Zenn記事: Gemini 3.1 Pro マルチモーダルAPI実践ガイド：画像・音声・動画をPythonで統合処理するの深掘りです。

情報源

arXiv ID: 2409.02813
URL: https://arxiv.org/abs/2409.02813
著者: Xiang Yue (CMU), Tianyu Zheng (University of Waterloo) et al.
発表年: 2024（ACL 2025採択）
分野: cs.CV, cs.AI, cs.CL

背景と動機（Background & Motivation）

MMMUは30科目・11,500問の大学レベルマルチモーダルベンチマークとして2024年に公開された。しかし、GPT-4oやClaude 3.5 Sonnetが人間に近いスコア（~70%）を達成するようになり、ベンチマークの飽和（benchmark saturation）が生じた。

著者らはMMMUの2つの弱点を特定している。第1に、GPT-4o（テキストのみモード、画像入力なし）がMMMU問題に対して56.6%の正解率を達成しており、半数以上の問題が視覚情報なしで解答可能であった。第2に、4択の選択肢では消去法や統計的ショートカットにより、モデルが真の理解なしに正解できる場合があった。MMMU-Proはこれらの問題を体系的に解消するために設計された。

主要な貢献（Key Contributions）

3段階構築パイプライン: テキストのみ正解問題のフィルタリング → 選択肢の10択拡張 → Vision-Only入力設定の導入
標準化CoT評価プロトコル: Chain-of-Thought推論とVoting戦略を統合した評価手法の提案
18モデルの包括的評価: クローズドソース7モデル・オープンソース11モデルの性能比較と、OCR能力がボトルネックとなるという知見

技術的詳細（Technical Details）

Step 1: テキストのみ正解可能問題のフィルタリング

GPT-4oをテキストのみモード（視覚入力なし）で全MMMU問題に適用し、テキストだけで正解可能な問題を特定・除外する。形式的に、問題 $q$、視覚コンテンツ $v$、選択肢集合 $O = {o_1, o_2, \ldots, o_n}$ に対し、以下の条件を満たす問題のみMMMU-Proに保持される：

\[P(\text{correct} \mid q, O, \emptyset) < \tau\]

ここで $\emptyset$ は視覚入力なし（テキストのみ条件）、$\tau$ はtext-only正解率の閾値を表す。モデルが画像なしで正解した問題は除外される。このフィルタリングにより、元のMMMU 11,500問のうち約30〜40%が除外され、約3,000問に絞り込まれた。

Step 2: 選択肢の10択への拡張

残った問題に対し、元の4択にGPT-4oが生成した6つの追加選択肢を加えて10択とする。追加選択肢の生成条件は以下の通り：

既存選択肢と形式・長さが類似していること
問題のトピックに関連し、もっともらしいが明確に誤りであること
既存選択肢と重複しないこと

ランダム正解率は $1/4 = 25\%$ から $1/10 = 10\%$ に低下する。これにより消去法や推測による正解の可能性が大幅に減少し、より厳密なマルチモーダル理解能力の評価が可能になる。

Step 3: Vision-Only入力設定

問題文・選択肢・既存の画像をすべて1枚の画像にレンダリングし、テキスト入力を排除する設定である。モデルへの入力は以下に限定される：

レンダリング済みの単一画像
短い指示文: “Answer the question in the image.”

この設定は以下の3つの能力を測定する：

OCR能力: 画像内テキストの正確な読み取り
視覚的理解: 埋め込まれた図表・チャートの解釈
情報統合: テキスト情報と視覚情報の統合処理

評価プロトコル: CoT + Voting

MMMU-Proは標準化されたChain-of-Thought（CoT）評価プロトコルを採用する。回答抽出は3段階のフォールバックメカニズムで行われる：

“The answer is (X)” パターンマッチング
括弧内選択肢文字の最後の出現箇所
GPT-4oをジャッジとして使用した回答抽出

信頼性向上のため、各問題を複数回（通常3〜5回）評価し、多数決で最終回答を決定するVoting戦略を併用する：

\[\hat{a} = \arg\max_{a \in O} \sum_{i=1}^{k} \mathbb{1}[a_i = a]\]

ここで $k$ は評価回数、$a_i$ は $i$ 回目の評価における回答、$\mathbb{1}[\cdot]$ は指示関数である。

実験結果（Results）

MMMU → MMMU-Pro Standard の性能低下

著者らが報告した主要な実験結果を以下に示す（論文Table 2より）：

モデル	MMMU	MMMU-Pro Standard	低下幅
GPT-4o	69.1%	47.3%	-21.8%
Claude 3.5 Sonnet	68.3%	50.2%	-18.1%
InternVL2-76B	68.3%	50.3%	-18.0%
Gemini 1.5 Pro	65.8%	48.0%	-17.8%
Claude 3 Opus	59.4%	39.6%	-19.8%
LLaVA-1.6-34B	51.1%	30.7%	-20.4%

全モデルで16.8%〜26.9%の性能低下が観察された。MMMU-Proではランダムベースラインが10%であるため、トップモデルの50%前後というスコアは、ベンチマークとして十分な弁別力を持つことを示している。

Vision-Only設定での性能変化

モデル	Standard	Vision-Only	低下幅
Claude 3.5 Sonnet	50.2%	42.3%	-7.9%
Gemini 1.5 Pro	48.0%	44.5%	-3.5%
GPT-4o	47.3%	38.6%	-8.7%
InternVL2-76B	50.3%	40.8%	-9.5%
LLaVA-1.6-34B	30.7%	20.1%	-10.6%

Gemini 1.5 ProのVision-Only設定での性能低下幅は-3.5%と全モデル中で最小であった。著者らはこの結果から、GeminiのOCR能力が他モデルより優れていると分析している。この知見はZenn記事で解説されているGemini 3.1 Proのマルチモーダル処理能力の背景理解として有用である。

CoT vs. Direct Answering

モデル	Direct	CoT	改善幅
GPT-4o	43.1%	47.3%	+4.2%
Claude 3.5 Sonnet	45.8%	50.2%	+4.4%
Gemini 1.5 Pro	43.9%	48.0%	+4.1%

CoTプロンプティングは全モデルで一貫して約4%の性能改善をもたらした。

科目別パフォーマンス差

著者らの分析によれば、科目間で顕著な性能差が存在する：

高スコア: Art & Design（上位モデルで約55%）
低スコア: Science（上位モデルで約35%）、特にMathとPhysicsが困難

実装のポイント（Implementation）

MMMU-Pro評価の実行

MMMU-Proの評価を実行する際の基本的な枠組みは以下の通り：

  
from dataclasses import dataclass

@dataclass
class MMMUProQuestion:
    """MMMU-Pro問題の構造"""
    question_id: str
    text: str
    images: list[bytes]
    options: list[str]  # 10択
    correct_answer: str
    subject: str
    discipline: str

def evaluate_standard(
    model_fn,
    questions: list[MMMUProQuestion],
    n_votes: int = 3,
) -> float:
    """Standard設定での評価

    Args:
        model_fn: モデル推論関数 (text, images) -> str
        questions: MMMU-Pro問題リスト
        n_votes: Voting回数

    Returns:
        正解率 (0.0 ~ 1.0)
    """
    correct = 0
    for q in questions:
        prompt = build_cot_prompt(q.text, q.options)
        votes: dict[str, int] = {}
        for _ in range(n_votes):
            response = model_fn(prompt, q.images)
            answer = extract_answer(response)
            votes[answer] = votes.get(answer, 0) + 1
        final = max(votes, key=votes.get)
        if final == q.correct_answer:
            correct += 1
    return correct / len(questions)

def extract_answer(response: str) -> str:
    """CoT応答から回答を抽出（3段階フォールバック）"""
    import re
    # Stage 1: "The answer is (X)" パターン
    match = re.search(r"The answer is \(([A-J])\)", response)
    if match:
        return match.group(1)
    # Stage 2: 最後の括弧内選択肢文字
    matches = re.findall(r"\(([A-J])\)", response)
    if matches:
        return matches[-1]
    # Stage 3: GPT-4oジャッジ（フォールバック）
    return fallback_judge(response)

Gemini 3.1 ProでのMMMU-Pro実行コスト試算

Zenn記事で解説されているGemini 3.1 ProのAPIパラメータとの関連で、MMMU-Pro（約3,000問）の実行コストを試算する：

Standard設定（3回Voting）:
  入力（問題文+10選択肢+画像）: 約1,500トークン/問 × 3,000問 × 3回 = 13.5Mトークン
  入力コスト: 13.5M × $1.50/M = $20.25
  出力（CoT推論）: 約200トークン/問 × 3,000問 × 3回 = 1.8Mトークン
  出力コスト: 1.8M × $12.00/M = $21.60
  合計: 約$41.85

Vision-Only設定（3回Voting）:
  入力（レンダリング画像）: 約3,000トークン/問 × 3,000問 × 3回 = 27.0Mトークン
  入力コスト: 27.0M × $1.50/M = $40.50
  出力コスト: $21.60（Standard設定と同等）
  合計: 約$62.10

media_resolution=LOWを使用すれば画像トークンを約67%削減可能だが、OCR精度への影響に注意が必要である。MMMU-Proの知見に基づけば、OCRがボトルネックとなるVision-Only設定ではmedia_resolutionの低下が直接的にスコア低下を引き起こす可能性がある。

実運用への応用（Practical Applications）

MMMU-Proの設計から、マルチモーダルモデルの実運用に対する以下の示唆が得られる：

モデル選択の判断基準: MMMU-Proの2設定（Standard・Vision-Only）でのスコア差から、モデルのOCR能力を間接的に評価できる。ドキュメントOCRや画像内テキスト解析を多用するユースケースでは、Vision-Only設定で低下幅の小さいモデル（Gemini系）の優位性が示唆される
選択肢設計への知見: 4択から10択への拡張で性能が大幅に低下するという知見は、LLMベースの評価・分類タスクを設計する際に、選択肢数がモデル精度に与える影響を事前に検証すべきことを示している
CoT評価の標準化: MMMU-Proで提案されたCoT + Votingプロトコルは、マルチモーダルモデルの社内評価パイプラインにも適用可能である

まとめと今後の展望

MMMU-Proは、テキストのみ正解可能問題のフィルタリング・10択への選択肢拡張・Vision-Only入力設定の3段階パイプラインにより、MMMUの堅牢性を大幅に向上させた。著者らの実験では、全モデルで16.8〜26.9%の性能低下が観察され、ベンチマークとしての弁別力が確認された。

特筆すべき発見として、Vision-Only設定においてGemini 1.5 ProのOCR能力が他モデルより優れていることが示された。Gemini 3.1 Proのmedia_resolutionパラメータ選択の際には、この知見を踏まえてOCR精度とコストのトレードオフを検討することが推奨される。

著者らが報告した限界として、GPT-4oによる追加選択肢の生成にはバイアスの可能性があること、Vision-Only設定のレンダリング品質に改善余地があることが挙げられている。今後は、動画を含むマルチモーダル評価の拡張や、多言語での評価が課題として残る。

参考文献

arXiv: https://arxiv.org/abs/2409.02813
MMMU: https://arxiv.org/abs/2311.16502
Dataset: https://huggingface.co/datasets/MMMU/MMMU_Pro
Related Zenn article: https://zenn.dev/0h_n0/articles/df5295d69a456f

📄 論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

Step 1: テキストのみ正解可能問題のフィルタリング

Step 2: 選択肢の10択への拡張

Step 3: Vision-Only入力設定

評価プロトコル: CoT + Voting

実験結果（Results）

MMMU → MMMU-Pro Standard の性能低下

Vision-Only設定での性能変化

CoT vs. Direct Answering

科目別パフォーマンス差

実装のポイント（Implementation）

MMMU-Pro評価の実行

Gemini 3.1 ProでのMMMU-Pro実行コスト試算

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

Step 1: テキストのみ正解可能問題のフィルタリング

Step 2: 選択肢の10択への拡張

Step 3: Vision-Only入力設定

評価プロトコル: CoT + Voting

実験結果（Results）

MMMU → MMMU-Pro Standard の性能低下

Vision-Only設定での性能変化

CoT vs. Direct Answering

科目別パフォーマンス差

実装のポイント（Implementation）

MMMU-Pro評価の実行

Gemini 3.1 ProでのMMMU-Pro実行コスト試算

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク

📄 論文解説: Qwen2-VL — 任意解像度の画像・動画を動的トークン化するVision-Language Model

📄 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価