Home NVIDIA公式技術ブログ解説: Nemotron 3 Nano Omniのマルチモーダルエージェント推論アーキテクチャ
投稿
キャンセル

✍️ NVIDIA公式技術ブログ解説: Nemotron 3 Nano Omniのマルチモーダルエージェント推論アーキテクチャ

本記事は NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model の解説記事です。

ブログ概要(Summary)

NVIDIAが2026年4月28日に公開したこの技術ブログでは、Nemotron 3 Nano Omniの設計思想、訓練パイプライン、ベンチマーク結果、およびエージェントシステムへの統合方法が包括的に説明されている。30B-A3Bハイブリッドアーキテクチャの各コンポーネント(C-RADIOv4-Hビジョンエンコーダ、Conv3D + EVSビデオ処理、Parakeetオーディオエンコーダ)の役割と、約127Bトークンの混合モダリティデータによるアダプター訓練、約124Mのキュレーション済みSFTサンプル、20のRL環境での強化学習という多段階訓練プロセスが開示されている。

この記事は Zenn記事: Nemotron 3 Nano Omniで構築するマルチモーダルAIエージェント実践ガイド の深掘りです。

情報源

  • 種別: 企業テックブログ
  • URL: https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/
  • 組織: NVIDIA(著者: Anjali Shah, Isabel Hulseman, Padmavathy Subramanian)
  • 発表日: 2026年4月28日

技術的背景(Technical Background)

マルチモーダルAIエージェントの構築には、従来は複数の専門モデル(OCRモデル、音声認識モデル、テキストLLM等)を連携させるパイプライン構成が一般的であった。このアプローチにはモデル間のレイテンシ累積、エラー伝播、インフラ管理の複雑さという課題がある。

NVIDIAのブログでは、Nemotron 3 Nano Omniがこれらの課題を「単一モデルによる統一処理」で解決するアプローチを採用したと説明されている。テキスト・画像・動画・音声の4モダリティを1回のフォワードパスで処理することで、パイプラインの複雑さを排除し、推論コストを削減するという設計思想である。

ブログでは、このモデルが「エージェントシステムにおけるマルチモーダル知覚と文脈のサブエージェント」として機能することが強調されている。つまり、エージェントが「見る」「聞く」ために必要なすべての知覚処理を単一のモデルで担い、重複する計算の排除を実現するという位置づけである。

実装アーキテクチャ(Architecture)

モダリティ別エンコーダ構成

NVIDIAのブログでは、4つのモダリティそれぞれに専用のエンコーダが設計されていると説明されている。

ビジョンエンコーダ: C-RADIOv4-H

ブログによると、C-RADIOv4-Hは高解像度画像を動的に処理し、特定のパッチにフォーカスしてOCR精度を維持する機能を持つ。Zenn記事で言及した動的解像度(512×512〜1,840×1,840)のネイティブアスペクト比保持は、このエンコーダの特性に基づいている。

ビデオ処理: Conv3D + EVS(Efficient Video Sampling)

ブログでは、3D畳み込みによるフレーム間のモーションキャプチャと、推論時のEVSレイヤーによるトークン圧縮が説明されている。

NVIDIAは「3D畳み込み層がフレーム間の時空間データを効率的に処理する」と述べた上で、EVSについて「高密度のビジュアルトークンを複数フレームから簡潔なセットに圧縮し、LLMがコンテキストウィンドウを圧迫することなく処理できるようにする」と説明している。

この二段圧縮——Conv3Dチューブレット埋め込みによるトークン50%削減と、EVSによる動的なフレーム間引き——が、Zenn記事で紹介したMediaPerfベンチマークでの9.91 h/hスループットの技術的基盤である。

オーディオエンコーダ: Parakeet-TDT-0.6B-v2

NVIDIAのParakeetエンコーダは、音声特徴を直接バックボーンに入力する方式を採用している。テキストへの変換を挟まないため、話者のトーンや環境音の情報も推論に活用できるとブログでは説明されている。

訓練パイプライン

ブログでは、以下の多段階訓練プロセスが開示されている。

ステージ1: アダプター・エンコーダ訓練

NVIDIAによると、約127Bトークンの混合モダリティデータ(テキスト+画像、テキスト+動画、テキスト+音声、テキスト+動画+音声)で訓練されている。

ステージ2: Supervised Fine-Tuning(SFT)

約124Mのキュレーション済みサンプルによる多段階SFTパイプラインが実施されている。ブログでは「ビジョン言語・オーディオエンコーダから始め、コンテキスト長をスケーリング」する段階的なモダリティ拡張が説明されている。コンテキスト長は16K → 49K → 262Kと段階的に拡大される。

合成データ生成

NeMo Data Designerを使用し、約11.4M(約45Bトークン)の合成Visual QAデータペアが生成されている。ブログでは、このイテレーティブな合成データ生成手法により、実データの制約を超えた訓練データの拡充が可能になったと説明されている。

ステージ3: 強化学習(RL)

20のRLデータセット、25の環境構成、5つの新しいマルチモーダルタスクにわたる訓練が実施されている。NVIDIAによると、230万回以上の環境ロールアウトが実行されている。

ベンチマーク結果

ブログで開示されている主要なベンチマーク結果は以下の通りである。

ドキュメント知能

NVIDIAは、MMlongbench-DocおよびOCRBenchV2のリーダーボードでトップ性能を達成したと報告している。Zenn記事で言及したMMLongBench-Doc: 57.5、OCRBenchV2-En: 65.8はこの結果に対応する。

動画・音声理解

WorldSense、DailyOmni、VoiceBenchのベンチマークでリードしていると報告されている。Zenn記事で言及したVideo-MME: 72.2、WorldSense: 55.4、VoiceBench: 89.4はこの結果に対応する。

システムスループット

ブログでは、固定インタラクティビティ閾値での比較として、動画推論で約9.2倍、マルチドキュメント推論で約7.4倍の実効システム容量を報告している。MediaPerfベンチマークでは、すべてのタスクで最高スループットを達成し、動画レベルタギングでの推論コストが最低であるとされている。

パフォーマンス最適化(Performance)

量子化オプション

ブログでは3つの量子化バリアントが紹介されている。

量子化モデルIDVRAM目安特徴
BF16Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16約64GB最高精度
FP8Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8約32GB精度・効率バランス
NVFP4Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4約25GBエッジ向け最高スループット

NVIDIAは「Blackwell GPU上でNVFP4量子化を使用したNemotron 3 Nano Omniが、オープンオムニモーダルモデル中最高のスループットを達成する」と述べている。

推論フレームワーク対応

ブログでは、以下のフレームワーク対応が説明されている。

  • vLLM: 高スループット連続バッチングとストリーミング
  • SGLang: マルチエージェントツール呼び出しワークロード向け最適化
  • TensorRT-LLM: 完全最適化TensorRTエンジン、Latent MoEカーネル搭載
  • Dynamo: 分離サービング、インテリジェントルーティング、多階層KVキャッシング、自動スケーリング
  • Ollama / llama.cpp / LM Studio: ローカル実行環境

ハードウェア対応

ブログでは、NVIDIA Ampere、Hopper、Blackwellの各GPUアーキテクチャに対してhardware-aware最適化が実施されていると説明されている。対応GPUとしてB200、H100、H200、A100、L40S、DGX Spark、RTX 6000が挙げられている。

運用での学び(Production Lessons)

エージェントシステム統合

ブログでは、NemoClaw(OpenClaw agents)およびHermes Agentとの統合が説明されている。NVIDIAは「プライバシーファーストのClawエージェント」を強調し、「ユーザーの動画データがローカルインフラから離れない」構成を推奨している。

エージェントシステムにおけるNemotron 3 Nano Omniの位置づけは以下の通りである。

  1. 知覚サブエージェント: テキスト・画像・動画・音声の入力を統一的に処理
  2. コンテキスト統合: 複数モダリティからの情報を単一の表現空間に統合
  3. 推論エージェントへの入力: 統合された知覚情報を推論エージェント(Reasoner)に渡す

この分離された設計により、知覚処理の効率化と推論処理の高度化を独立に最適化できる。

オープンソース戦略

ブログでは、NVIDIAの「オープンバイデザイン」戦略として以下が公開されている。

  • モデル重み: 全パラメータチェックポイント(Hugging Face)
  • 訓練レシピ: 事前訓練、事後訓練、評価のレシピ(GitHub)
  • データセット: 10T+の事前訓練トークン、40M+の事後訓練サンプル
  • RL環境: 20のRL環境構成
  • 合成データ生成パイプライン: NeMo Data Designerのレシピ

ライセンスは「NVIDIA Nemotron Open Model License」であり、商用利用が可能とされている。

学術研究との関連(Academic Connection)

Nemotron-Hとの関係

ブログで説明されているアーキテクチャは、Nemotron-H論文(arXiv: 2504.11849)で体系的に分析されたMamba-Transformer混合設計を直接的に採用している。Nemotron-Hが言語モデルとして精度と効率のトレードオフを特定したのに対し、Nemotron 3 Nano Omniはマルチモーダル入力への拡張を実現したものと位置づけられる。

訓練手法の学術的基盤

ブログで説明されている多段階訓練パイプラインは、以下の学術的手法に基づいている。

  • 段階的モダリティ拡張: LLaVA系の研究で確立されたアダプター訓練→SFTの流れを発展
  • 合成データ生成: NeMo Data Designerを用いたイテレーティブ生成は、Self-Instruct等の手法の産業応用
  • マルチ環境RL: NeMo RL + NeMo Gymを用いたマルチモーダルRL環境での訓練は、エージェント能力向上のための学術研究の実用化

まとめと実践への示唆

このNVIDIA技術ブログは、Nemotron 3 Nano Omniの設計判断と訓練パイプラインの全体像を開示した重要な1次情報源である。Zenn記事で紹介したベンチマーク結果やデプロイ手順の技術的根拠が、このブログと付随するテクニカルレポートに記載されている。特に、約127Bトークンの混合モダリティデータによる訓練と230万回以上のRL環境ロールアウトという規模感は、マルチモーダルエージェントの構築に必要な計算資源と設計の複雑さを理解する上で参考になる。

参考文献

  • Blog URL: https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/
  • Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Omni-report.pdf
  • Related Papers: https://arxiv.org/abs/2504.11849 (Nemotron-H)
  • Related Zenn article: https://zenn.dev/0h_n0/articles/fabaf781f4158d
  • NeMo Framework: https://github.com/NVIDIA/NeMo
この投稿は CC BY 4.0 でライセンスされています。