Home CVPR 2024論文解説: MMMU — 大規模マルチモーダル理解・推論ベンチマーク
投稿
キャンセル

📄 CVPR 2024論文解説: MMMU — 大規模マルチモーダル理解・推論ベンチマーク

本記事は arXiv:2311.16502 MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI の解説記事です。

論文概要(Abstract)

MMMUは、マルチモーダルモデルの「専門家レベルの理解と推論能力」を評価するために設計された大規模ベンチマークである。大学の試験・クイズ・教科書から収集された11,500問のマルチモーダル問題で構成され、6つの主要分野(Art & Design、Business、Science、Health & Medicine、Humanities & Social Science、Tech & Engineering)、30科目、183の細分野をカバーしている。著者らの評価によれば、GPT-4Vは56%、Gemini Ultraは59%のスコアを達成しており、専門家レベルのマルチモーダル推論には大きな改善余地があることが示されている。

この記事は Zenn記事: Gemini 3.1 Pro マルチモーダルAPI実践ガイド:画像・音声・動画をPythonで統合処理する の深掘りです。

情報源

  • 会議名: CVPR 2024(Computer Vision and Pattern Recognition)
  • : 2024
  • URL: https://arxiv.org/abs/2311.16502
  • 著者: Xiang Yue, Yuansheng Ni, Kai Zhang, et al.(21名の共著者)
  • 発表形式: Oral Presentation

カンファレンス情報

CVPRはコンピュータビジョン分野の最高峰学会の1つであり、例年の採択率は約25%程度である。MMMUはCVPR 2024でOral発表として採択されており、マルチモーダルAI評価における重要な貢献として認められている。

技術的詳細(Technical Details)

ベンチマーク設計の原則

MMMUの設計は、従来のマルチモーダルベンチマーク(VQAv2、TextVQA等)に対する以下の批判に基づいている。

従来ベンチマークの問題点:

  1. 日常的な視覚認識に偏重: 「この画像に猫はいますか?」のような単純なタスクが中心
  2. テキスト情報のみで解答可能: 画像を見なくても言語知識だけで正答できる問題が多い
  3. 専門知識を要さない: 専門家レベルの推論能力を測定できない

著者らはこれらの問題を解決するために、以下の設計原則を採用している。

問題の収集プロセス

データソース: 大学レベルの教科書、試験問題、クイズから人手で収集。自動生成は使用されていない。

画像タイプの多様性: 30種類以上の画像タイプを含む:

  • 化学構造式、回路図、楽譜、建築図面
  • 医学画像(X線、MRI、CT)
  • グラフ、チャート、表、地図
  • 数学の図形、物理のダイアグラム

問題形式: 多肢選択式(主に4択)。正答の位置は均一にランダム化されている。

評価指標

MMMUではマクロ平均精度(Macro-averaged Accuracy)を使用する。各科目・分野でのモデル性能を均等に評価するためである。

\[\text{Accuracy}_{\text{macro}} = \frac{1}{|\mathcal{S}|} \sum_{s \in \mathcal{S}} \frac{1}{|Q_s|} \sum_{q \in Q_s} \mathbb{1}[\hat{y}_q = y_q]\]

ここで、

  • $\mathcal{S}$: 科目の集合($\mathcal{S}= 30$)
  • $Q_s$: 科目$s$の問題集合
  • $\hat{y}_q$: モデルの予測答案
  • $y_q$: 正解
  • $\mathbb{1}[\cdot]$: 指示関数

この設計により、問題数が多い科目に偏った評価を防いでいる。

分野別の問題構成

分野科目数問題数画像タイプ例
Science82,865化学構造式、物理ダイアグラム、生物図
Tech & Engineering72,515回路図、CAD図面、フローチャート
Health & Medicine51,845X線、MRI、組織学画像
Business41,500財務グラフ、組織図、マーケティング図
Humanities & Social Science41,475地図、歴史的図像、統計グラフ
Art & Design21,300絵画、建築図面、デザインスケッチ

テキストのみで解答可能な問題の検証

著者らは、MMMUの問題がテキスト情報のみで解答可能かどうかを検証するために、画像を除去したテキストのみの入力でモデルを評価している(論文Section 4.2より)。この「テキストのみ条件」での精度と「画像あり条件」の精度差を比較することで、モデルが実際に視覚情報を活用しているかを検証した。

検証の結果、一部の問題では画像がなくても正答率が大きく低下しないことが判明した。これは、言語モデルの知識ベースに含まれる情報(例:「水分子の化学式は?」)で解答可能な問題が含まれていることを意味する。この知見は、後続のMMMU-Proベンチマーク(arXiv:2409.02813)でテキストのみ解答可能な問題を除外する設計につながっている。

Few-Shot vs Zero-Shot評価

著者らは0-shot、1-shot、3-shotの各条件でモデルを評価している。マルチモーダル問題では、例示(shot)として画像+テキストのペアを提供する必要があるため、コンテキスト長の消費が大きくなる。

\[\text{Context}_{\text{k-shot}} = \sum_{i=1}^{k} (T_{\text{image}_i} + T_{\text{text}_i}) + T_{\text{query}}\]

ここで$T_{\text{image}i}$は$i$番目の例示画像のトークン数、$T{\text{text}i}$は例示テキストのトークン数、$T{\text{query}}$はクエリのトークン数である。

Gemini 3.1 Proの100万トークンコンテキストを活用すれば、多数のFew-Shot例示を含めることが可能であり、精度向上が期待できる。一方、media_resolutionをLOWに設定することで例示画像のトークン消費を抑え、コスト効率を高めることもできる。

難易度分析フレームワーク

著者らは問題の難易度を以下の3段階で分類している:

難易度定義全体に占める割合GPT-4V精度
Easy基礎知識のみで解答可能約30%約80%
Medium複数ステップの推論が必要約45%約55%
Hard高度な専門知識と推論が必要約25%約30%

この難易度分析は、Gemini 3.1 Proのthinking_levelとの対応関係を示唆している。Easy問題にはthinking_level="LOW"、Medium問題には"MEDIUM"、Hard問題には"HIGH"を使用することで、コストとパフォーマンスの最適なバランスを実現できる可能性がある。

実験結果(Results)

著者らが報告している主要モデルの評価結果を以下に示す(論文Table 1より)。

クローズドソースモデル

モデル全体精度ScienceTech & EngHealthBusinessHumanitiesArt
GPT-4V56.8%55.0%52.8%60.2%58.4%56.0%58.7%
Gemini Ultra59.4%57.8%55.2%62.5%60.1%58.3%62.4%
Claude 3 Opus59.4%

オープンソースモデル

モデル全体精度パラメータ数
LLaVA-1.536.4%13B
InternLM-XComposer39.1%7B
CogVLM37.3%17B
BLIP-235.4%7B

オープンソースモデルとGPT-4V/Gemini Ultraの間には約20ポイントの精度差があり、著者らはこの差が「専門知識の統合と複雑な推論能力」に起因すると分析している。

Gemini 3.1 ProのMMMU性能との関連

Zenn記事で解説しているGemini 3.1 Proは、ARC-AGI-2で77.1%を達成するなど推論能力が大幅に向上している。Googleの公式発表(Gemini 3.1 Pro Blog)では、Gemini 3.1 Proの推論性能がGemini 3 Proの2倍であるとされている。MMMUのような専門知識を要するベンチマークでも、thinking_level="HIGH"の活用により、Gemini Ultra時代の59%から大幅な改善が見込まれる。

実運用への応用(Practical Applications)

MMMUは、マルチモーダルモデルの導入判断において重要な参照点を提供する。

モデル選定の判断基準: Gemini 3.1 Proのthinking_level設定と組み合わせて使用する場合、以下のような判断が可能となる:

  1. LOWで十分なタスク: MMMUのArt & Design分野のような「画像全体の把握」が中心のタスク
  2. MEDIUMが推奨されるタスク: Business分野のグラフ読み取りや要約
  3. HIGHが必要なタスク: Science分野の化学構造式解析やHealth分野の医学画像診断

media_resolutionとの組み合わせ: MMMUの問題には細かい図表の読み取りが多く含まれるため、media_resolution="HIGH"の使用が推奨される。特に化学構造式や回路図では、LOW設定だと細部の認識精度が低下する可能性がある。

評価パイプラインの構築: MMMUはHugging Face上でデータセットが公開されており(MMMU/MMMU)、自社モデルの評価パイプラインに組み込むことが可能である。

コスト試算例: MMMUの全11,500問をGemini 3.1 Proで評価する場合(各問題に画像1枚+テキスト約200トークンと仮定):

1
2
3
4
5
6
7
8
9
画像トークン (media_resolution=MEDIUM): 770 × 11,500 = 8,855,000トークン
テキストトークン: 200 × 11,500 = 2,300,000トークン
合計入力: 約11,155,000トークン
入力コスト: 11.155M × $2.00/M = $22.31

出力(回答50トークン/問): 575,000トークン
出力コスト: 0.575M × $12.00/M = $6.90

合計: 約$29.21(thinking_level=LOWの場合)

media_resolution=LOWにすれば画像トークンを約67%削減でき、合計約$12程度まで削減可能である。ただし、化学構造式や回路図が含まれるScience・Tech分野では精度が低下する可能性がある。

査読者の評価(Peer Review Insights)

CVPR 2024でOral採択されたことから、査読者から高い評価を受けたことが推測される。一般的にCVPRのOral採択率は5%以下であり、ベンチマーク論文としては異例の評価である。

MMMUの主な評価ポイントは以下と考えられる:

  1. 網羅性: 30科目183細分野という広い範囲をカバーし、既存ベンチマークにない専門分野を含む
  2. : 大学教科書・試験からの人手収集により、ノイズの少ない高品質な問題を実現
  3. 実用性: モデルの弱点を分野別に特定できる構造であり、開発サイクルの改善に直結する

関連研究(Related Work)

  • MMMU-Pro (2409.02813): MMMUの強化版。テキストのみで解答可能な問題を除外し、選択肢数を増やすことで、より厳密なマルチモーダル能力の評価を可能にした
  • MM-Vet: マルチモーダルモデルの6つの能力(Recognition、Knowledge、OCR、Spatial、Language Generation、Math)を個別に評価するベンチマーク
  • Video-MME: 動画理解に特化したベンチマーク。Gemini 3.1 Proの動画処理機能やYouTube URL直接入力の評価に使用される。MMMU が静止画に限定されるのに対し、Video-MME は時間的推論を必要とする
  • ScienceQA: 科学教育向けのマルチモーダルQAベンチマーク。MMMUと比較して難易度は低いが、説明生成能力の評価に優れている

まとめと今後の展望

MMMUは、マルチモーダルモデルの評価において「専門家レベルの知識と推論」という重要な次元を導入した。著者らの報告では、GPT-4V/Gemini Ultraの精度が56-59%であることから、専門家レベルの理解にはまだ大きな改善余地がある。

Gemini 3.1 Proのthinking_levelパラメータは、このような複雑な推論タスクでの性能向上に直接貢献する機能であり、MMMUのようなベンチマークでの評価改善が期待される。

今後の課題として、著者らは以下を挙げている:(1)動画やリアルタイム入力を含むマルチモーダルベンチマークの発展、(2)テキストのみで解答可能な問題のさらなる排除(MMMU-Proで部分的に対応済み)、(3)オープンエンド回答形式への拡張(現在は多肢選択のみ)、(4)非英語言語でのマルチモーダル評価。特に日本語の専門用語を含む問題の評価は、日本市場でGemini 3.1 Proを活用する際の重要な検証ポイントとなる。

参考文献

この投稿は CC BY 4.0 でライセンスされています。

Google解説: Gemini 2.5の動画理解 — VideoMME 85.2%達成のマルチモーダル技術詳細

論文解説: CoRAG — Chain-of-Retrieval Augmented Generation