論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク

本記事は MMTEB: Massive Multilingual Text Embedding Benchmark (arXiv:2502.13595) の解説記事です。

論文概要（Abstract）

テキスト埋め込みモデルの評価は、従来のMTEB（Muennighoff et al., 2022）が英語中心であったため、多言語モデルの公平な比較が困難であった。Enevoldsen, Chung, Kerboua et al.は、250以上の言語・500以上のデータセット・10タスクカテゴリをカバーするMassive Multilingual Text Embedding Benchmark（MMTEB）を提案した。著者らはコミュニティ主導の拡張プロセスを採用し、継続的にデータセットが追加される設計としている。ICLR 2025で発表された本論文は、多言語埋め込みモデル評価の新たな標準を提示している。

この記事は Zenn記事: MTEB×JMTEBで選ぶEmbeddingモデル：精度評価の実践ガイドの深掘りです。

情報源

arXiv ID: 2502.13595
URL: https://arxiv.org/abs/2502.13595
著者: Kenneth Enevoldsen, Isaac Chung, Imene Kerboua et al.
発表年: 2025年（ICLR 2025採択）
分野: cs.CL, cs.IR

背景と動機（Background & Motivation）

MTEB（arXiv:2210.07316）は8タスク・56データセットでEmbeddingモデルの統一評価を実現したが、大きな制約があった。56データセットの大半が英語タスクであり、多言語モデルの能力を公平に評価できなかった。Bitext Miningを除けば、英語以外の言語に対応するタスクが限定的であった。

一方、JMTEB（Oshikiri et al., 2024）のように言語特化ベンチマークが各国で構築される動きはあったが、これらは互いに独立しており、統一的な比較が困難だった。MMTEBは、これらの言語別ベンチマークをMTEBの枠組みに統合し、多言語モデルと言語特化モデルの公平な比較を可能にすることを目指した。

主要な貢献（Key Contributions）

貢献1: MTEBの評価フレームワークを250以上の言語・500以上のデータセットに拡張
貢献2: 命令追従検索（Instruction Retrieval）、長文書検索（Long-document Retrieval）など新規タスクカテゴリを追加し、合計10カテゴリに拡張
貢献3: コミュニティ主導の継続的拡張プロセスにより、データセットの投稿・審査・追加が可能な設計を採用
貢献4: 多言語モデルvs言語特化モデルのトレードオフを大規模に検証し、「全言語・全タスクで一様に強いモデルは存在しない」ことを再確認

技術的詳細（Technical Details）

10タスクカテゴリの構成

MMTEBはMTEBの8カテゴリに新規カテゴリを追加し、合計10カテゴリで構成される。

タスク	MTEB比	評価指標	測定する能力
Retrieval	大幅拡張	NDCG@10	クエリに対する関連文書検索（多言語コーパス対応）
Classification	言語拡張	Accuracy	テキスト分類（各言語のデータセット追加）
Clustering	言語拡張	V-measure	意味的クラスタリング
STS	言語拡張	Spearman相関	文間類似度
Reranking	言語拡張	MAP	候補文書の再ランキング
Summarization	言語拡張	Spearman相関	要約品質評価
Bitext Mining	大幅拡張	F1	対訳ペア発見（新言語ペア追加）
Pair Classification	言語拡張	AP	テキストペア関係性判定
Instruction Retrieval	新規	NDCG@10	指示文を考慮した条件付き検索
Long-document Retrieval	新規	NDCG@10	長文書（数千トークン）の検索

Instruction Retrievalは、「ネガティブな意見のみ検索せよ」のような指示文を含むクエリに対する検索精度を評価する。従来のRetrievalタスクがクエリと文書の関連性のみを評価していたのに対し、指示文の理解力も測定できる。

Long-document Retrievalは、数千トークンを超える長文書に対する検索精度を評価する。MTEBの限界として論文が指摘していた「長文書評価の不足」を直接解決する拡張である。

評価フレームワークの設計

MMTEBはMTEBのPythonパッケージ（pip install mteb）に統合されており、同一のAPIで多言語評価が実行できる。

  
# mmteb_eval_example.py
# MMTEB多言語評価の実行例
# 動作確認: Python 3.11, mteb 2.8.4
import mteb

# 日本語対応モデルの読み込み
model = mteb.get_model("intfloat/multilingual-e5-large")

# 日本語タスクのみフィルタして評価
tasks = mteb.get_tasks(
    languages=["jpn"],  # ISO 639-3コードで指定
    task_types=["Retrieval", "STS"],  # タスクタイプで絞り込み
)

results = mteb.evaluate(
    model,
    tasks=tasks,
    output_folder="results/mmteb-japanese",
)

for task_result in results:
    print(f"Task: {task_result.task_name}")
    print(f"  Score: {task_result.get_score():.4f}")

言語フィルタリングにはISO 639-3コードを使用する。日本語は"jpn"、英語は"eng"で指定する。

多言語モデルvs言語特化モデルの分析

著者らの分析による主要な知見を以下にまとめる。

知見1: 多言語モデルはRetrievalで優位

Retrieval（情報検索）タスクでは、bge-m3やmultilingual-e5-large-instructなどの多言語モデルが多くの言語で高スコアを記録している。著者らはこの傾向を、大規模な多言語コーパスでの学習がクロスリンガルな検索能力を強化するためと分析している。

知見2: 言語特化モデルがSTSで競争力を維持

STS（Semantic Textual Similarity）タスクでは、日本語・中国語・アラビア語などの資源豊富な言語において、言語特化モデルが多言語モデルと同等以上のスコアを記録するケースが報告されている。言語固有の微妙な意味的ニュアンスの捕捉には、言語特化の学習データが効果的であると著者らは分析している。

知見3: 低リソース言語では多言語モデルが有利

学習データが限られる言語では、多言語モデルのクロスリンガル転移学習の恩恵が大きく、言語特化モデルとの差が縮小または逆転する傾向が観察されている。

実験結果（Results）

主要モデルの多言語スコア概要

論文で報告されている上位モデルを以下に示す（論文Section 4のランキングに基づく）。

モデル	開発元	言語数	特徴
voyage-multilingual-2	Voyage AI	多言語	商用API、検索に強い
bge-m3	BAAI	多言語	OSS、密/疎/多ベクトル対応
multilingual-e5-large-instruct	Microsoft	多言語	OSS、指示チューニング済み
text-embedding-3-large	OpenAI	多言語	商用API、Matryoshka対応
gte-Qwen2-7B-instruct	Alibaba	多言語	7Bパラメータ、OSS

著者らは「数十億パラメータのLLMベースモデルが特定言語・タスクでSOTAを達成する一方、全言語・全タスクで一様に強いモデルは存在しない」と結論づけている。この知見はMTEB原論文の結論と一貫しており、言語次元でも同様のトレードオフが存在することを大規模に確認した形である。

日本語評価の位置づけ

MMTEBは日本語（jpn）を評価対象言語に含んでおり、JSTS（日本語STS）、MIRACL-ja（日本語検索）等の既存ベンチマークが統合されている。日本語特化のJMTEB（SB Intuitions, 2024）とは互換性があり、MMTEBの日本語サブセットとJMTEBのスコアは概ね一致する傾向にある。

ただし、MMTEBの日本語タスク数はJMTEBの16データセットよりも限定的である。日本語Embeddingモデルの詳細な評価にはJMTEBの直接実行が推奨される。MMTEBの価値は、日本語モデルと他言語モデルの「言語間比較」を可能にする点にある。

実装のポイント（Implementation）

MMTEBを実際に活用する際の注意点をまとめる。

評価コストの管理: 500以上のデータセット全評価は非現実的である。著者らも論文のLimitationsで認めているとおり、対象言語とタスクを絞って評価することが推奨される。日本語RAGシステムのモデル選定なら、languages=["jpn"]とtask_types=["Retrieval"]でフィルタリングすれば十分である。

言語間不均一性への注意: 言語によってデータセット数・品質に大きな差がある。英語は数百タスクが利用可能だが、一部の低リソース言語は数タスクのみである。スコアの比較は同一言語・同一タスク間で行うべきである。

商用モデルの評価コスト: OpenAI text-embedding-3-largeやVoyage AIモデルをMMTEBで全評価すると、API課金が発生する。コスト見積もりについて、Zenn記事で解説したとおり、1,000クエリ × 10,000ドキュメントのエンコードで$0.50-$2.00程度（2026年2月時点の公式価格に基づく推定）である。

MTEBパッケージとの統合: MMTEBはMTEBの最新バージョン（v2.8+）に統合されている。pip install mtebでインストールすれば、mteb.get_tasks(languages=["jpn"])で日本語タスクを取得できる。追加パッケージは不要である。

実運用への応用（Practical Applications）

MMTEBの実務的な活用シーンを以下に示す。

多言語RAGシステムのモデル選定: 日本語と英語の両方を扱うRAGシステムでは、多言語モデル（bge-m3等）の採用が有力候補となる。MMTEBにより、日本語と英語の両方の検索精度を同一指標で比較できる。

JMTEBとの併用戦略: 日本語を主対象とするシステムでは、MMTEBの日本語サブセットでの候補絞り込み → JMTEBの16データセットでの詳細評価、という2段階の評価戦略が実用的である。

新規言語への対応判断: 自社サービスを新しい言語に展開する際、MMTEBでその言語のベンチマークスコアを確認し、多言語モデルで十分か、言語特化モデルの開発が必要かを判断できる。

Production Deployment Guide

AWS実装パターン（コスト最適化重視）

多言語Embeddingモデルの推論パイプラインをAWS上で構築する場合の構成を示す。

トラフィック量別の推奨構成:

規模	月間リクエスト	推奨構成	月額コスト	主要サービス
Small	~3,000 (100/日)	Serverless	$80-200	Lambda + SageMaker Serverless + S3
Medium	~30,000 (1,000/日)	Hybrid	$400-1,000	ECS Fargate + SageMaker Real-time + ElastiCache
Large	300,000+ (10,000/日)	Container	$2,500-6,000	EKS + GPU Spot + Karpenter

Small構成の詳細（月額$80-200）:

Lambda: テキスト前処理・言語検出・バッチ制御（$20/月）
SageMaker Serverless: bge-m3等の多言語モデル推論（$120/月）
S3: 多言語コーパス・評価結果保存（$10/月）
CloudWatch: 多言語リクエスト分布の監視（$5/月）

コスト試算の注意事項:

上記は2026年2月時点のAWS ap-northeast-1（東京）リージョン料金に基づく概算値です
多言語モデル（bge-m3等）はパラメータ数が大きいため、単言語モデルより推論コストが高くなります
最新料金は AWS料金計算ツールで確認してください

Terraformインフラコード

Small構成（Serverless）: Lambda + SageMaker Serverless + S3

  
# --- S3バケット（多言語コーパス・評価結果保存） ---
resource "aws_s3_bucket" "mmteb_data" {
  bucket = "mmteb-multilingual-data"
}

resource "aws_s3_bucket_server_side_encryption_configuration" "mmteb_data" {
  bucket = aws_s3_bucket.mmteb_data.id
  rule {
    apply_server_side_encryption_by_default {
      sse_algorithm = "aws:kms"
    }
  }
}

# --- IAMロール（最小権限） ---
resource "aws_iam_role" "lambda_mmteb" {
  name = "lambda-mmteb-eval-role"

  assume_role_policy = jsonencode({
    Version = "2012-10-17"
    Statement = [{
      Action = "sts:AssumeRole"
      Effect = "Allow"
      Principal = { Service = "lambda.amazonaws.com" }
    }]
  })
}

# --- Lambda関数（多言語前処理） ---
resource "aws_lambda_function" "multilingual_preprocessor" {
  filename      = "lambda.zip"
  function_name = "mmteb-multilingual-preprocessor"
  role          = aws_iam_role.lambda_mmteb.arn
  handler       = "index.handler"
  runtime       = "python3.12"
  timeout       = 300
  memory_size   = 1024

  environment {
    variables = {
      S3_BUCKET = aws_s3_bucket.mmteb_data.bucket
    }
  }
}

運用・監視設定

CloudWatch Logs Insights クエリ:

  
-- 言語別のEmbeddingリクエスト分布を可視化
fields @timestamp, language, model_name, latency_ms
| stats count(*) as request_count,
        avg(latency_ms) as avg_latency
  by language, bin(1h)
| sort request_count desc

コスト最適化チェックリスト

~100 req/日 → Lambda + SageMaker Serverless（$80-200/月）
~1000 req/日 → ECS Fargate + SageMaker Real-time（$400-1,000/月）
10000+ req/日 → EKS + GPU Spot Instances（$2,500-6,000/月）
多言語モデルの推論バッチ化: 複数言語のリクエストを1バッチに統合
言語別のモデル選択ロジック: 高頻度言語には専用モデル、低頻度言語には多言語モデルで分岐
SageMaker Serverless: アイドル時ゼロコスト（コールドスタート許容の場合）
ElastiCache: 頻出クエリの埋め込みキャッシュで推論コスト削減
AWS Budgets: 月額予算設定（80%で警告、100%でアラート）
CloudWatch アラーム: SageMaker推論レイテンシスパイク検知
Cost Anomaly Detection: 自動異常検知有効化
タグ戦略: 言語別・環境別でコスト可視化
ライフサイクルポリシー: S3の古い評価結果を自動削除
開発環境: SageMakerエンドポイントの夜間削除

まとめと今後の展望

MMTEBは、テキスト埋め込みモデルの評価を英語中心から多言語に拡張した論文である。250以上の言語・500以上のデータセットを統一フレームワークで評価可能にし、多言語モデルと言語特化モデルの客観的比較を実現した。

著者らの「全言語・全タスクで一様に強いモデルは存在しない」という知見は、MTEB原論文のタスク間トレードオフの発見を言語次元に拡張したものであり、日本語を含む各言語のユースケースに応じたモデル選定の重要性を改めて示している。

実務的には、MMTEBの日本語サブセットで候補モデルを絞り込み、JMTEBの16データセットで詳細評価し、さらに自社ドメインデータで最終判断を行う3段階の評価戦略が推奨される。

参考文献

arXiv: https://arxiv.org/abs/2502.13595
Code: https://github.com/embeddings-benchmark/mteb（MMTEB統合済み、Apache 2.0）
Leaderboard: https://huggingface.co/spaces/mteb/leaderboard
Related Zenn article: https://zenn.dev/0h_n0/articles/6388d71c6bcb23

📄 論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

10タスクカテゴリの構成

評価フレームワークの設計

多言語モデルvs言語特化モデルの分析

実験結果（Results）

主要モデルの多言語スコア概要

日本語評価の位置づけ

実装のポイント（Implementation）

実運用への応用（Practical Applications）

Production Deployment Guide

AWS実装パターン（コスト最適化重視）

Terraformインフラコード

運用・監視設定

コスト最適化チェックリスト

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

10タスクカテゴリの構成

評価フレームワークの設計

多言語モデルvs言語特化モデルの分析

実験結果（Results）

主要モデルの多言語スコア概要

日本語評価の位置づけ

実装のポイント（Implementation）

実運用への応用（Practical Applications）

Production Deployment Guide

AWS実装パターン（コスト最適化重視）

Terraformインフラコード

運用・監視設定

コスト最適化チェックリスト

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク

📄 ICLR 2025論文解説: MMTEB — Massive Multilingual Text Embedding Benchmark

📄 論文解説: MTEB — 56データセット×8タスクでEmbeddingモデルを統一評価するベンチマーク