Home 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価
投稿
キャンセル

📄 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価

論文概要(Abstract)

ARC Prize 2025 Technical Reportは、汎用人工知能(AGI)の評価を目的としたARC-AGI-2ベンチマークの設計と評価結果を報告する技術文書である。ARC-AGI-1がo3(OpenAI)により87.5%を達成し人間レベルに接近したことを受け、より高次の抽象推論を要求するARC-AGI-2を導入した。著者らは、現行の大規模言語モデル(LLM)がARC-AGI-2に対して0〜5%程度のスコアにとどまる一方、人間は60〜80%を達成すると報告している。

この記事は Zenn記事: Gemini 3.1 Pro マルチモーダルAPI実践ガイド:画像・音声・動画をPythonで統合処理する の深掘りです。

情報源

  • arXiv ID: 2601.10904
  • URL: https://arxiv.org/abs/2601.10904
  • 著者: Mike Knoop, François Chollet(ARC Prize Foundation)
  • 発表年: 2025
  • 分野: cs.AI

背景と動機(Background & Motivation)

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、2019年にFrançois Cholletが論文”On the Measure of Intelligence”で提案した知能評価フレームワークに基づくベンチマークである。従来のベンチマーク(ImageNet、GLUE等)が「タスク特化の性能」を測定するのに対し、ARC-AGIは「新規タスクへの効率的な汎化能力」、すなわち流動性知能(fluid intelligence)を測定することを目的としている。

ARC-AGI-1は2020年からKaggle競技として運営され、2024年にはOpenAIのo3が高計算設定で87.5%を達成した(人間ベースラインは約85%)。これによりARC-AGI-1は飽和状態に近づき、AIの知能評価としての弁別力が低下した。著者らはこの状況を受けて、記憶やパターンマッチングでは解決困難な、より高次の合成的推論を要求するARC-AGI-2を設計した。

主要な貢献(Key Contributions)

  • ARC-AGI-2ベンチマーク: 複数概念の合成的推論を要求する新たなタスクセットの設計
  • 人間-AI性能ギャップの定量化: 人間(60〜80%)とトップLLM(0〜5%)の間の大きな性能差を報告
  • AGI評価フレームワークの更新: 流動性知能の測定手法を精緻化し、スケーリングだけでは到達困難な能力の存在を示唆

技術的詳細(Technical Details)

ARC-AGI-2のタスク構造

各タスクは以下の構造を持つ:

  1. デモンストレーション(training examples): 3〜5組の入出力グリッドペア
  2. テスト入力: 1つのグリッド(正解出力を生成する必要がある)
  3. グリッド形式: 最大30×30のカラーグリッド(0〜9の10色)
  4. 評価基準: 出力グリッドの完全一致(pixel-by-pixel exact match)

各タスクには3回の試行機会が与えられ、3回以内に正解グリッドを生成すれば成功と判定される。

1
2
3
4
入力グリッド例:
[0, 0, 1, 0]    [0, 1, 0, 0]
[0, 1, 0, 0] -> [1, 0, 0, 0]
[1, 0, 0, 0]    [0, 0, 0, 1]

Core Knowledge Priors

ARC-AGI-2はARC-AGI-1と同様に、人間が発達初期(4歳程度まで)に獲得する中核知識システム(Core Knowledge Systems)のみを前提とする。著者らはこれを以下の4カテゴリに整理している:

  1. オブジェクト一貫性(Object Cohesion): 物体が移動・変形しても同一性を保持する
  2. 数量感覚(Numerosity): 少数のオブジェクトを正確に数える能力
  3. 幾何学的・位相的性質: 対称性、連続性、囲まれた領域の認識
  4. 基本的物理直観: 接触因果性、重力方向の理解

これにより、特定の教育・文化・言語に依存しない「普遍的な知能」の評価が可能になる。形式的に表現すると、評価対象の知能 $I$ は以下の条件を満たすタスク集合 $\mathcal{T}$ 上で測定される:

\[I(S) = \frac{1}{|\mathcal{T}|} \sum_{t \in \mathcal{T}} \mathbb{1}[\text{solve}(S, t) = \text{correct}]\]

ここで $S$ は評価対象のシステム、$\mathbb{1}[\cdot]$ は指示関数であり、$\mathcal{T}$ の各タスク $t$ はCore Knowledge Priorsのみを前提として設計される。

ARC-AGI-1との難易度設計の差異

ARC-AGI-2が困難である理由を、著者らは以下のように説明している:

  1. 合成的推論の深化: ARC-AGI-1が単一の変換ルールで解ける問題を多く含むのに対し、ARC-AGI-2は複数の独立したルールを同時に適用する必要がある。例えば「色の反転」と「回転」と「条件分岐」を1つのタスク内で組み合わせる

  2. ノイズ・例外への耐性: 入力に意図的なイレギュラリティが含まれ、ルールの一般化にはデモから例外パターンを適切に除外する能力が求められる

  3. 抽象度の上昇: 視覚的に直観的なパターン変換から、より高次の概念操作(カウント結果に基づく条件分岐等)へ

Test-Time Compute(TTC)の限界

著者らは、推論時の計算量(Test-Time Compute)を増加させるだけではARC-AGI-2の性能が頭打ちになることを報告している。OpenAI o3はARC-AGI-1で大量のTTCにより87.5%を達成したが、ARC-AGI-2では同様の戦略で数%にとどまる。

これは以下の仮説を支持する:

\[\text{Performance}(S) \neq f(\text{TTC}) \quad \text{for sufficiently complex tasks}\]

すなわち、計算量をスケールさせるだけでは質的に異なる推論能力を代替できないという主張である。著者らは、真に必要なのは「タスクごとに新しい推論プログラムを動的に合成する能力」であると述べている。

実験結果(Results)

人間 vs AIの性能比較

著者らが報告した主要な実験結果は以下の通りである:

システムARC-AGI-1ARC-AGI-2
人間(一般)~85%~60-80%
o3(OpenAI, high compute)87.5%~数%
GPT-4o~20%~0-5%
Claude 3.5 Sonnet~20%~0-5%
Gemini 1.5 Pro~15%~0-5%

ARC-AGI-1では人間レベルに到達したo3が、ARC-AGI-2では人間の1/10以下のスコアにとどまっている。この劇的な性能低下は、現行のLLMアーキテクチャが「記憶とパターンマッチング」に依存しており、真の抽象推論を行っていない可能性を示唆している。

スコアギャップの分析

著者らは性能ギャップの原因を以下のように分析している:

  • LLMの強み: 大規模コーパスに含まれるパターンの再現、自然言語理解、コード生成
  • LLMの弱み: 学習データに存在しない新規パターンの発見、複数ルールの合成、反例からの学習
  • 人間の強み: 少数のデモンストレーションからのルール抽出、抽象概念の操作、メタ認知(自分の推論過程を監視・修正する能力)

特に、ARC-AGI-2ではデモンストレーション例が3〜5組しかないため、人間が持つ「少数事例からの効率的な仮説生成・棄却」のサイクルが、大量データに依存するLLMとの本質的な差異として浮き彫りになっている。

実装のポイント(Implementation)

ARC-AGI-2でのプログラム合成アプローチ

ARC-AGI-1で上位を占めたアプローチはDSL(Domain Specific Language)ベースのプログラム合成であった。基本的な枠組みは以下の通り:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
from typing import Callable

# DSLプリミティブの定義
type Grid = list[list[int]]
type Transform = Callable[[Grid], Grid]

def rotate_90(grid: Grid) -> Grid:
    """グリッドを90度回転"""
    n = len(grid)
    return [[grid[n - 1 - j][i] for j in range(n)] for i in range(n)]

def flip_colors(grid: Grid, mapping: dict[int, int]) -> Grid:
    """色のマッピングを適用"""
    return [[mapping.get(cell, cell) for cell in row] for row in grid]

def compose(transforms: list[Transform]) -> Transform:
    """複数の変換を合成"""
    def composed(grid: Grid) -> Grid:
        for t in transforms:
            grid = t(grid)
        return grid
    return composed

def search_program(
    demos: list[tuple[Grid, Grid]],
    primitives: list[Transform],
    max_depth: int = 5,
) -> Transform | None:
    """ビームサーチによるプログラム探索

    Args:
        demos: デモンストレーション(入出力ペア)
        primitives: 利用可能なプリミティブ変換
        max_depth: 合成の最大深度

    Returns:
        全デモを満たす変換プログラム、または None
    """
    from itertools import product
    for depth in range(1, max_depth + 1):
        for combo in product(primitives, repeat=depth):
            candidate = compose(list(combo))
            if all(candidate(inp) == out for inp, out in demos):
                return candidate
    return None

ARC-AGI-2ではプリミティブ変換の数と合成深度が大幅に増加するため、探索空間が指数的に拡大する。著者らの報告によれば、ARC-AGI-1で有効だったDSLのカバレッジがARC-AGI-2では不十分となる可能性がある。

Gemini 3.1 Proのthinking_levelとの関連

Zenn記事で解説されているGemini 3.1 Proのthinking_levelパラメータは、推論時の計算量を制御する機能である。ARC-AGI-2の知見に基づけば、thinking_level=HIGHで計算量を増加させても、現行のTransformerアーキテクチャでは合成的推論タスクでの性能向上には限界がある。

一方で、thinking_levelが有効なタスクとARC-AGI-2で困難なタスクの性質の違いは以下のように整理できる:

特性thinking_level有効ARC-AGI-2で困難
知識依存度高い(学習済み知識の活用)低い(Core Priorsのみ)
推論の種類演繹・帰納(既知パターン内)仮説生成・検証(新規パターン)
スケーリング効果計算量に比例した改善計算量による改善が限定的

実運用への応用(Practical Applications)

ARC-AGI-2のベンチマーク設計から、マルチモーダルAIの実用化に関する示唆が得られる:

  1. モデル選択の指標: ARC-AGI-2のスコアは、モデルが「真に新しいタスク」を処理できるかの指標となる。Gemini 3.1 ProのようなAPIを選択する際、学習データに含まれない新規パターンへの対応力を評価する基準として利用可能

  2. Hybrid AI設計: LLMの言語理解力とプログラム合成の組み合わせ(Neurosymbolic AI)が、実運用での柔軟なタスク対応に有効である可能性を示唆

  3. 評価パイプライン: マルチモーダルモデルの品質管理において、既存ベンチマーク(MMMU等)とARC-AGI-2を組み合わせた多角的評価が推奨される

関連研究(Related Work)

  • On the Measure of Intelligence (Chollet, 2019): ARC-AGIの理論的基盤。知能の定量化手法として「汎化の効率性」を提案し、ARC-AGI-1のタスクセットを構築した
  • MMMU (Yue et al., 2024): 大学レベルの専門知識を問うマルチモーダルベンチマーク。ARC-AGI-2が流動性知能を測定するのに対し、MMMUは結晶性知能(crystallized intelligence)を評価する。両者は相補的な関係にある
  • SWE-bench (Jimenez et al., 2024): ソフトウェアエンジニアリングタスクのベンチマーク。ARC-AGI-2のプログラム合成と関連するが、SWE-benchは既存のコードベース上での実用的なコード修正に焦点を当てる
  • MMMU-Pro (Yue et al., 2024): MMMUの強化版。テキストのみで解答可能な問題を除外し、純粋なマルチモーダル能力の測定を目指す点で、ARC-AGI-2の設計思想と共通する

まとめと今後の展望

ARC-AGI-2は、現行のLLMが「スケーリングだけでは到達困難な知能の壁」が存在することを示す重要な証拠を提供している。著者らは、人間(60〜80%)とAI(0〜5%)の性能差から、真のAGI実現にはアーキテクチャレベルの革新が必要であると結論づけている。

今後の研究方向として、著者らは以下を挙げている:(1)ニューロシンボリックアプローチの発展(ニューラルネットワークと記号推論の統合)、(2)タスクごとのプログラム動的合成メカニズム、(3)メタ学習を通じた抽象化・再利用能力の獲得。Gemini 3.1 Proのthinking_levelパラメータのように推論時計算量を制御する機能は、こうした新アーキテクチャへの移行期における有用な中間解として位置づけられる。

ARC Prize 2025競技は公開リーダーボード形式で実施され、ARC-AGI-2で人間レベルのスコアを達成したチームに賞金が授与される。2025年1月時点で、この閾値を突破したAIシステムは報告されていない。

参考文献

この投稿は CC BY 4.0 でライセンスされています。

論文解説: MAESTRO — Multi-Agent Evaluation and Testing for Real-world Orchestration

Anthropic: AIエージェント評価の実践ガイド — Demystifying Evals