論文概要(Abstract)
MMMU-Proは、MMMUベンチマークの堅牢性を強化した評価フレームワークである。著者らは3段階のパイプライン(テキストのみ正解可能な問題の除外、選択肢の10択への拡張、Vision-Only入力設定の導入)を通じて構築した。18のモデルを評価した結果、MMMUからMMMU-Proへの移行で16.8%〜26.9%の性能低下が観察された。また、Vision-Only設定においてOCR能力がモデル性能の重要なボトルネックとなることが報告されている。
この記事は Zenn記事: Gemini 3.1 Pro マルチモーダルAPI実践ガイド:画像・音声・動画をPythonで統合処理する の深掘りです。
情報源
- arXiv ID: 2409.02813
- URL: https://arxiv.org/abs/2409.02813
- 著者: Xiang Yue (CMU), Tianyu Zheng (University of Waterloo) et al.
- 発表年: 2024(ACL 2025採択)
- 分野: cs.CV, cs.AI, cs.CL
背景と動機(Background & Motivation)
MMMUは30科目・11,500問の大学レベルマルチモーダルベンチマークとして2024年に公開された。しかし、GPT-4oやClaude 3.5 Sonnetが人間に近いスコア(~70%)を達成するようになり、ベンチマークの飽和(benchmark saturation)が生じた。
著者らはMMMUの2つの弱点を特定している。第1に、GPT-4o(テキストのみモード、画像入力なし)がMMMU問題に対して56.6%の正解率を達成しており、半数以上の問題が視覚情報なしで解答可能であった。第2に、4択の選択肢では消去法や統計的ショートカットにより、モデルが真の理解なしに正解できる場合があった。MMMU-Proはこれらの問題を体系的に解消するために設計された。
主要な貢献(Key Contributions)
- 3段階構築パイプライン: テキストのみ正解問題のフィルタリング → 選択肢の10択拡張 → Vision-Only入力設定の導入
- 標準化CoT評価プロトコル: Chain-of-Thought推論とVoting戦略を統合した評価手法の提案
- 18モデルの包括的評価: クローズドソース7モデル・オープンソース11モデルの性能比較と、OCR能力がボトルネックとなるという知見
技術的詳細(Technical Details)
Step 1: テキストのみ正解可能問題のフィルタリング
GPT-4oをテキストのみモード(視覚入力なし)で全MMMU問題に適用し、テキストだけで正解可能な問題を特定・除外する。形式的に、問題 $q$、視覚コンテンツ $v$、選択肢集合 $O = {o_1, o_2, \ldots, o_n}$ に対し、以下の条件を満たす問題のみMMMU-Proに保持される:
\[P(\text{correct} \mid q, O, \emptyset) < \tau\]ここで $\emptyset$ は視覚入力なし(テキストのみ条件)、$\tau$ はtext-only正解率の閾値を表す。モデルが画像なしで正解した問題は除外される。このフィルタリングにより、元のMMMU 11,500問のうち約30〜40%が除外され、約3,000問に絞り込まれた。
Step 2: 選択肢の10択への拡張
残った問題に対し、元の4択にGPT-4oが生成した6つの追加選択肢を加えて10択とする。追加選択肢の生成条件は以下の通り:
- 既存選択肢と形式・長さが類似していること
- 問題のトピックに関連し、もっともらしいが明確に誤りであること
- 既存選択肢と重複しないこと
ランダム正解率は $1/4 = 25\%$ から $1/10 = 10\%$ に低下する。これにより消去法や推測による正解の可能性が大幅に減少し、より厳密なマルチモーダル理解能力の評価が可能になる。
Step 3: Vision-Only入力設定
問題文・選択肢・既存の画像をすべて1枚の画像にレンダリングし、テキスト入力を排除する設定である。モデルへの入力は以下に限定される:
- レンダリング済みの単一画像
- 短い指示文: “Answer the question in the image.”
この設定は以下の3つの能力を測定する:
- OCR能力: 画像内テキストの正確な読み取り
- 視覚的理解: 埋め込まれた図表・チャートの解釈
- 情報統合: テキスト情報と視覚情報の統合処理
評価プロトコル: CoT + Voting
MMMU-Proは標準化されたChain-of-Thought(CoT)評価プロトコルを採用する。回答抽出は3段階のフォールバックメカニズムで行われる:
- “The answer is (X)” パターンマッチング
- 括弧内選択肢文字の最後の出現箇所
- GPT-4oをジャッジとして使用した回答抽出
信頼性向上のため、各問題を複数回(通常3〜5回)評価し、多数決で最終回答を決定するVoting戦略を併用する:
\[\hat{a} = \arg\max_{a \in O} \sum_{i=1}^{k} \mathbb{1}[a_i = a]\]ここで $k$ は評価回数、$a_i$ は $i$ 回目の評価における回答、$\mathbb{1}[\cdot]$ は指示関数である。
実験結果(Results)
MMMU → MMMU-Pro Standard の性能低下
著者らが報告した主要な実験結果を以下に示す(論文Table 2より):
| モデル | MMMU | MMMU-Pro Standard | 低下幅 |
|---|---|---|---|
| GPT-4o | 69.1% | 47.3% | -21.8% |
| Claude 3.5 Sonnet | 68.3% | 50.2% | -18.1% |
| InternVL2-76B | 68.3% | 50.3% | -18.0% |
| Gemini 1.5 Pro | 65.8% | 48.0% | -17.8% |
| Claude 3 Opus | 59.4% | 39.6% | -19.8% |
| LLaVA-1.6-34B | 51.1% | 30.7% | -20.4% |
全モデルで16.8%〜26.9%の性能低下が観察された。MMMU-Proではランダムベースラインが10%であるため、トップモデルの50%前後というスコアは、ベンチマークとして十分な弁別力を持つことを示している。
Vision-Only設定での性能変化
| モデル | Standard | Vision-Only | 低下幅 |
|---|---|---|---|
| Claude 3.5 Sonnet | 50.2% | 42.3% | -7.9% |
| Gemini 1.5 Pro | 48.0% | 44.5% | -3.5% |
| GPT-4o | 47.3% | 38.6% | -8.7% |
| InternVL2-76B | 50.3% | 40.8% | -9.5% |
| LLaVA-1.6-34B | 30.7% | 20.1% | -10.6% |
Gemini 1.5 ProのVision-Only設定での性能低下幅は-3.5%と全モデル中で最小であった。著者らはこの結果から、GeminiのOCR能力が他モデルより優れていると分析している。この知見はZenn記事で解説されているGemini 3.1 Proのマルチモーダル処理能力の背景理解として有用である。
CoT vs. Direct Answering
| モデル | Direct | CoT | 改善幅 |
|---|---|---|---|
| GPT-4o | 43.1% | 47.3% | +4.2% |
| Claude 3.5 Sonnet | 45.8% | 50.2% | +4.4% |
| Gemini 1.5 Pro | 43.9% | 48.0% | +4.1% |
CoTプロンプティングは全モデルで一貫して約4%の性能改善をもたらした。
科目別パフォーマンス差
著者らの分析によれば、科目間で顕著な性能差が存在する:
- 高スコア: Art & Design(上位モデルで約55%)
- 低スコア: Science(上位モデルで約35%)、特にMathとPhysicsが困難
実装のポイント(Implementation)
MMMU-Pro評価の実行
MMMU-Proの評価を実行する際の基本的な枠組みは以下の通り:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
from dataclasses import dataclass
@dataclass
class MMMUProQuestion:
"""MMMU-Pro問題の構造"""
question_id: str
text: str
images: list[bytes]
options: list[str] # 10択
correct_answer: str
subject: str
discipline: str
def evaluate_standard(
model_fn,
questions: list[MMMUProQuestion],
n_votes: int = 3,
) -> float:
"""Standard設定での評価
Args:
model_fn: モデル推論関数 (text, images) -> str
questions: MMMU-Pro問題リスト
n_votes: Voting回数
Returns:
正解率 (0.0 ~ 1.0)
"""
correct = 0
for q in questions:
prompt = build_cot_prompt(q.text, q.options)
votes: dict[str, int] = {}
for _ in range(n_votes):
response = model_fn(prompt, q.images)
answer = extract_answer(response)
votes[answer] = votes.get(answer, 0) + 1
final = max(votes, key=votes.get)
if final == q.correct_answer:
correct += 1
return correct / len(questions)
def extract_answer(response: str) -> str:
"""CoT応答から回答を抽出(3段階フォールバック)"""
import re
# Stage 1: "The answer is (X)" パターン
match = re.search(r"The answer is \(([A-J])\)", response)
if match:
return match.group(1)
# Stage 2: 最後の括弧内選択肢文字
matches = re.findall(r"\(([A-J])\)", response)
if matches:
return matches[-1]
# Stage 3: GPT-4oジャッジ(フォールバック)
return fallback_judge(response)
Gemini 3.1 ProでのMMMU-Pro実行コスト試算
Zenn記事で解説されているGemini 3.1 ProのAPIパラメータとの関連で、MMMU-Pro(約3,000問)の実行コストを試算する:
1
2
3
4
5
6
7
8
9
10
11
12
Standard設定(3回Voting):
入力(問題文+10選択肢+画像): 約1,500トークン/問 × 3,000問 × 3回 = 13.5Mトークン
入力コスト: 13.5M × $1.50/M = $20.25
出力(CoT推論): 約200トークン/問 × 3,000問 × 3回 = 1.8Mトークン
出力コスト: 1.8M × $12.00/M = $21.60
合計: 約$41.85
Vision-Only設定(3回Voting):
入力(レンダリング画像): 約3,000トークン/問 × 3,000問 × 3回 = 27.0Mトークン
入力コスト: 27.0M × $1.50/M = $40.50
出力コスト: $21.60(Standard設定と同等)
合計: 約$62.10
media_resolution=LOWを使用すれば画像トークンを約67%削減可能だが、OCR精度への影響に注意が必要である。MMMU-Proの知見に基づけば、OCRがボトルネックとなるVision-Only設定ではmedia_resolutionの低下が直接的にスコア低下を引き起こす可能性がある。
実運用への応用(Practical Applications)
MMMU-Proの設計から、マルチモーダルモデルの実運用に対する以下の示唆が得られる:
モデル選択の判断基準: MMMU-Proの2設定(Standard・Vision-Only)でのスコア差から、モデルのOCR能力を間接的に評価できる。ドキュメントOCRや画像内テキスト解析を多用するユースケースでは、Vision-Only設定で低下幅の小さいモデル(Gemini系)の優位性が示唆される
選択肢設計への知見: 4択から10択への拡張で性能が大幅に低下するという知見は、LLMベースの評価・分類タスクを設計する際に、選択肢数がモデル精度に与える影響を事前に検証すべきことを示している
CoT評価の標準化: MMMU-Proで提案されたCoT + Votingプロトコルは、マルチモーダルモデルの社内評価パイプラインにも適用可能である
関連研究(Related Work)
- MMMU (Yue et al., 2024, arXiv: 2311.16502): MMMU-Proの元となるベンチマーク。30科目・11,500問の大学レベルマルチモーダル評価。MMMU-Proはテキストのみ正解可能問題のフィルタリングにより、MMMUの弱点を解消した
- ARC-AGI-2 (Knoop & Chollet, 2025, arXiv: 2601.10904): 流動性知能を測定するベンチマーク。MMMU-Proが結晶性知能(学習済み知識に基づく専門的推論)を測定するのに対し、ARC-AGI-2は新規パターンの発見能力を評価する。両者は知能の異なる側面を測定する相補的なベンチマークである
- MathVista (Lu et al., 2023): 数学的推論に特化したマルチモーダルベンチマーク。MMMU-Proで特に困難とされるScience分野(Math・Physics)の評価を深掘りする用途に適する
まとめと今後の展望
MMMU-Proは、テキストのみ正解可能問題のフィルタリング・10択への選択肢拡張・Vision-Only入力設定の3段階パイプラインにより、MMMUの堅牢性を大幅に向上させた。著者らの実験では、全モデルで16.8〜26.9%の性能低下が観察され、ベンチマークとしての弁別力が確認された。
特筆すべき発見として、Vision-Only設定においてGemini 1.5 ProのOCR能力が他モデルより優れていることが示された。Gemini 3.1 Proのmedia_resolutionパラメータ選択の際には、この知見を踏まえてOCR精度とコストのトレードオフを検討することが推奨される。
著者らが報告した限界として、GPT-4oによる追加選択肢の生成にはバイアスの可能性があること、Vision-Only設定のレンダリング品質に改善余地があることが挙げられている。今後は、動画を含むマルチモーダル評価の拡張や、多言語での評価が課題として残る。
参考文献
- arXiv: https://arxiv.org/abs/2409.02813
- MMMU: https://arxiv.org/abs/2311.16502
- Dataset: https://huggingface.co/datasets/MMMU/MMMU_Pro
- Related Zenn article: https://zenn.dev/0h_n0/articles/df5295d69a456f