論文解説: RT-2 ─ Web知識をロボット制御に転移するVision-Language-Actionモデル

論文概要（Abstract）

本記事は arXiv:2307.15818 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control の解説記事です。

RT-2はGoogle DeepMindが2023年7月に発表した、Vision-Language-Action（VLA）モデルの先駆的研究である。既存の大規模Vision-Language Model（VLM）であるPaLI-X（55B）およびPaLM-E（12B）をベースに、ロボットの行動をテキストトークンとして表現し、言語タスクとロボット制御タスクを統合的にco-fine-tuningする手法を提案した。著者らによると、未知の物体への操作、新規言語命令の解釈、chain-of-thought推論による多段階タスクの実行が可能になったと報告されている。「VLAモデル」という用語を広く普及させた論文であり、π0シリーズを含む後続のVLA研究に大きな影響を与えた。

この記事は Zenn記事: π0.7徹底解説 ─ ロボット基盤モデルに構成的汎化が芽生えたの深掘りです。

情報源

arXiv ID: 2307.15818
著者: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Chelsea Finn, Karol Hausman, Sergey Levine, Karl Pertsch, Quan Vuong, Ted Xiao, et al.（Google DeepMind）
発表年: 2023年7月
分野: cs.RO, cs.CL, cs.CV, cs.LG

背景と動機（Background & Motivation）

RT-2の前身であるRT-1（2022年）は、130,000エピソードのロボットデモンストレーションで訓練されたEfficient-Netベースのモデルであった。RT-1は大規模データによるスケーリングの有効性を実証したが、訓練データに含まれない物体や状況への汎化能力は限定的であった。

一方、PaLI-XやPaLM-Eといった大規模VLMは、インターネット規模のデータで訓練されており、物体認識・言語理解・常識推論において優れた能力を持っていた。しかし、これらのモデルはロボットの物理的な行動を直接生成する能力を持っていなかった。

RT-2の核心的なアイデアは、ロボットの行動をテキストトークンとして表現することで、VLMの訓練パイプラインをそのまま流用してロボット制御能力を獲得するというものである。VLMが持つWeb知識（数十億のテキスト・画像ペア）を、追加のアーキテクチャ変更なしにロボット制御に転移させることを目指した。

主要な貢献（Key Contributions）

VLAモデルの概念確立: Vision-Language-Action（VLA）モデルという概念を初めて大規模に実証し、後続研究の方向性を定義した
アクションのテキストトークン化: ロボットの連続的な行動を離散テキストトークンに変換し、VLMの訓練フレームワークで直接学習する手法を提案した
Web知識の汎化転移: VLMが学習したWeb知識（物体の名前、色、機能など）がロボット制御に転移することを実証。訓練データにない物体への操作が可能になった

技術的詳細（Technical Details）

アクションのテキストトークン化

RT-2の設計上の核心は、ロボットのアクションを自然言語と同じトークン空間で表現することにある。

7自由度のロボットアクション（3次元位置変化 $\Delta x, \Delta y, \Delta z$、3次元回転変化 $\Delta \text{roll}, \Delta \text{pitch}, \Delta \text{yaw}$、グリッパー開閉）を、それぞれ256段階に離散化する。

\[\text{token}_i = \text{offset} + \text{round}\left(\frac{a_i - a_{\min}}{a_{\max} - a_{\min}} \times 255\right), \quad i = 1, ..., 7\]

ここで offsetはテキスト語彙との衝突を避けるための定数である。

生成されるアクション文字列の例:

1 128 91 241 5 101 127

この7つの整数がそのまま自己回帰的に生成される。VLMにとっては「テキストを生成する」タスクと同一であり、アーキテクチャの変更が不要である。

Co-fine-tuningによる訓練

RT-2の訓練は、VLMの通常のVQA（Visual Question Answering）データとロボットデモンストレーションデータを混合したco-fine-tuningで行われる。

flowchart LR
    A[Web VQAデータ] --> C[混合データローダ]
    B[ロボットデモデータ] --> C
    C --> D[PaLI-X / PaLM-E]
    D --> E[テキスト出力 or アクション出力]

データ混合比: 著者らの報告によると、VQAデータとロボットデータの混合比は約1:1が最適であった。ロボットデータのみでファインチューニングするとVLMの言語能力が劣化し（catastrophic forgetting）、VQAデータの比率が高すぎるとロボット制御性能が不足した。

2つのベースモデル

RT-2はPaLI-XとPaLM-Eの2つのベースモデルで評価されている。

RT-2-PaLI-X（55B params）: PaLI-X（ViT-22Bビジョンエンコーダ + UL2-32Bテキストデコーダ）をベースとする。画像理解能力が強く、空間推論に優れる。

RT-2-PaLM-E（12B params）: PaLM-E（ViT + PaLM）をベースとする。言語理解能力が強く、複雑な言語指示への追従に優れる。

Chain-of-Thought推論

RT-2の興味深い能力として、chain-of-thought（CoT）推論のロボット制御への適用がある。

通常のプロンプト:

Q: Pick up the bottle.
A: 1 128 91 241 5 101 127

CoTプロンプト:

Q: Pick up the bottle. Think step by step.
A: I need to first locate the bottle, then move my gripper above it, 
   then lower the gripper, then close it.
   Step 1: Move above bottle. 1 140 95 200 5 101 255

著者らによると、CoTプロンプトを使用した場合、複雑な多段階タスク（「スナック菓子に最も近いボトルを取れ」等の推論を要するタスク）での成功率が向上したと報告されている。ただし、CoTの推論ステップにより応答遅延が増加するトレードオフがある。

実装のポイント（Implementation）

VLMの重み初期化戦略

RT-2の訓練で重要なのは、事前学習済みVLMの重みをどの程度固定するかである。著者らの報告によると：

全パラメータ微調整: 最も高い性能を達成するが、VLMの汎化能力が劣化するリスクがある
Vision Encoder固定 + デコーダ微調整: 画像理解能力を保持しつつ、新しいアクション生成能力を獲得する
LoRA微調整: 計算効率は高いが、性能はフル微調整に劣る

制御周波数の制約

RT-2の自己回帰生成は、55Bパラメータモデルの場合1回の推論に数百msを要する。これは制御周波数を約1-3Hzに制限し、高速な反応が必要なタスク（落下物のキャッチ等）には不向きである。

著者らはこの制約に対し、アクションの予測ホライズンを長めにとる（複数ステップ先まで予測する）ことで対処している。しかし、Diffusion Policyやπ0のアクションチャンキングと比較すると、この問題への対処は限定的であった。

  
import torch
from transformers import AutoModelForCausalLM, AutoProcessor

def rt2_style_action_tokenization(
    action: list[float],
    action_min: list[float],
    action_max: list[float],
    num_bins: int = 256,
    vocab_offset: int = 32000,
) -> list[int]:
    """RT-2スタイルの連続アクションのトークン化。

    Args:
        action: 7次元連続アクション [dx, dy, dz, rx, ry, rz, gripper]
        action_min: 各次元の最小値
        action_max: 各次元の最大値
        num_bins: 量子化ビン数
        vocab_offset: 言語トークンとの衝突回避オフセット

    Returns:
        トークンIDのリスト（7要素）
    """
    tokens = []
    for a, a_min, a_max in zip(action, action_min, action_max):
        normalized = (a - a_min) / (a_max - a_min + 1e-8)
        bin_idx = int(round(normalized * (num_bins - 1)))
        bin_idx = max(0, min(num_bins - 1, bin_idx))
        tokens.append(vocab_offset + bin_idx)
    return tokens


def rt2_style_action_detokenization(
    tokens: list[int],
    action_min: list[float],
    action_max: list[float],
    num_bins: int = 256,
    vocab_offset: int = 32000,
) -> list[float]:
    """RT-2スタイルのトークンから連続アクションへの逆変換。

    Args:
        tokens: 7つのトークンID
        action_min: 各次元の最小値
        action_max: 各次元の最大値
        num_bins: 量子化ビン数
        vocab_offset: 言語トークンとの衝突回避オフセット

    Returns:
        7次元連続アクション
    """
    actions = []
    for token, a_min, a_max in zip(tokens, action_min, action_max):
        bin_idx = token - vocab_offset
        normalized = bin_idx / (num_bins - 1)
        action = normalized * (a_max - a_min) + a_min
        actions.append(action)
    return actions

実験結果（Results）

汎化能力の評価

著者らは3つのカテゴリで汎化能力を評価したと報告している。

シンボル理解（Symbol Understanding）: 訓練データにない言語指示への対応能力。例えば「Taylor Swiftの国の国旗の色の缶を取れ」という指示に対し、RT-2が正しくアメリカ国旗（赤・白・青）を連想し、該当する缶を把持できたと報告されている。

推論能力（Reasoning）: 物体の関係性や物理的常識を活用した推論。「飲み物ではない物体を取れ」「エネルギーを補給するための物体を取れ」といった抽象的指示への対応。

人間認識（Human Recognition）: 人間のポーズやジェスチャーの認識。「うなずいている人のそばの物体を取れ」等。

評価カテゴリ	RT-1	RT-2-PaLM-E（12B）	RT-2-PaLI-X（55B）
既知物体	83%	82%	87%
未知物体	36%	60%	62%
推論タスク	32%	47%	36%

（論文のFigure 5に基づく概算値。評価環境とプロトコルの詳細は論文を参照）

π0との比較における文脈

RT-2は55Bパラメータという大規模モデルであるにもかかわらず、著者らの報告する性能はOpenVLA（7B）に一部のタスクで劣っていた。OpenVLAの著者らは、29タスクでRT-2-Xを絶対成功率で16.5%上回ったと報告している。

この差異の原因として、OpenVLAが970,000トラジェクトリという大規模データで訓練されているのに対し、RT-2は約130,000エピソードのEveryday Robotsデータを主に使用していることが挙げられる。モデルサイズだけでなくデータの量と多様性が性能に大きく影響することを示唆している。

実運用への応用（Practical Applications）

RT-2のWeb知識転移アプローチは、ロボットの適用範囲を大きく広げる可能性がある。訓練データに含まれない新しい物体でも、VLMが持つWeb知識により認識・操作が可能になる。

ただし、RT-2の実運用には大きな制約がある。55BパラメータモデルはH100等のハイエンドGPUが必要であり、推論コストが高い。また、制御周波数の制約（1-3Hz）により、リアルタイム性が求められるタスクには不向きである。これらの制約がπ0での軽量化（3B params）とFlow Matchingによる推論効率化の動機となった。

まとめと今後の展望

RT-2は「VLMのWeb知識をロボット制御に転移する」というビジョンを大規模に実証した先駆的研究である。離散トークン方式でのアクション表現とco-fine-tuningの手法は、OpenVLAに直接継承された。

一方、RT-2の限界 ─ 大規模モデルの推論コスト、離散トークン方式の精度制約、低い制御周波数 ─ はπ0シリーズでの設計革新（VLM + Flow Matchingの分離アーキテクチャ、連続アクション生成、アクションチャンキング）の動機となった。VLAモデルの技術史において、RT-2は「何が可能か」を示し、π0シリーズは「どうすれば実用的か」を追求した関係にある。

参考文献

arXiv: https://arxiv.org/abs/2307.15818
Google DeepMind Blog: https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/
Related Zenn article: https://zenn.dev/0h_n0/articles/b8a023d5dfc83c

📄 論文解説: RT-2 ─ Web知識をロボット制御に転移するVision-Language-Actionモデル

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

アクションのテキストトークン化

Co-fine-tuningによる訓練

2つのベースモデル

Chain-of-Thought推論

実装のポイント（Implementation）

VLMの重み初期化戦略

制御周波数の制約

実験結果（Results）

汎化能力の評価

π0との比較における文脈

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: RT-2 ─ Web知識をロボット制御に転移するVision-Language-Actionモデル

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

アクションのテキストトークン化

Co-fine-tuningによる訓練

2つのベースモデル

Chain-of-Thought推論

実装のポイント（Implementation）

VLMの重み初期化戦略

制御周波数の制約

実験結果（Results）

汎化能力の評価

π0との比較における文脈

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: π0 ─ Vision-Language-Action Flow Modelによる汎用ロボット制御

📄 論文解説: OpenVLA ─ オープンソースVision-Language-Actionモデルの設計と実践

📄 論文解説: Diffusion Policy ─ 拡散過程によるロボット行動生成の基盤技術