本記事は MMTEB: Massive Multilingual Text Embedding Benchmark (arXiv:2502.13595) の解説記事です。
論文概要(Abstract)
テキスト埋め込みモデルの評価は、従来のMTEB(Muennighoff et al., 2022)が英語中心であったため、多言語モデルの公平な比較が困難であった。Enevoldsen, Chung, Kerboua et al.は、250以上の言語・500以上のデータセット・10タスクカテゴリをカバーするMassive Multilingual Text Embedding Benchmark(MMTEB)を提案した。著者らはコミュニティ主導の拡張プロセスを採用し、継続的にデータセットが追加される設計としている。ICLR 2025で発表された本論文は、多言語埋め込みモデル評価の新たな標準を提示している。
この記事は Zenn記事: MTEB×JMTEBで選ぶEmbeddingモデル:精度評価の実践ガイド の深掘りです。
情報源
- arXiv ID: 2502.13595
- URL: https://arxiv.org/abs/2502.13595
- 著者: Kenneth Enevoldsen, Isaac Chung, Imene Kerboua et al.
- 発表年: 2025年(ICLR 2025採択)
- 分野: cs.CL, cs.IR
背景と動機(Background & Motivation)
MTEB(arXiv:2210.07316)は8タスク・56データセットでEmbeddingモデルの統一評価を実現したが、大きな制約があった。56データセットの大半が英語タスクであり、多言語モデルの能力を公平に評価できなかった。Bitext Miningを除けば、英語以外の言語に対応するタスクが限定的であった。
一方、JMTEB(Oshikiri et al., 2024)のように言語特化ベンチマークが各国で構築される動きはあったが、これらは互いに独立しており、統一的な比較が困難だった。MMTEBは、これらの言語別ベンチマークをMTEBの枠組みに統合し、多言語モデルと言語特化モデルの公平な比較を可能にすることを目指した。
主要な貢献(Key Contributions)
- 貢献1: MTEBの評価フレームワークを250以上の言語・500以上のデータセットに拡張
- 貢献2: 命令追従検索(Instruction Retrieval)、長文書検索(Long-document Retrieval)など新規タスクカテゴリを追加し、合計10カテゴリに拡張
- 貢献3: コミュニティ主導の継続的拡張プロセスにより、データセットの投稿・審査・追加が可能な設計を採用
- 貢献4: 多言語モデルvs言語特化モデルのトレードオフを大規模に検証し、「全言語・全タスクで一様に強いモデルは存在しない」ことを再確認
技術的詳細(Technical Details)
10タスクカテゴリの構成
MMTEBはMTEBの8カテゴリに新規カテゴリを追加し、合計10カテゴリで構成される。
| タスク | MTEB比 | 評価指標 | 測定する能力 |
|---|---|---|---|
| Retrieval | 大幅拡張 | NDCG@10 | クエリに対する関連文書検索(多言語コーパス対応) |
| Classification | 言語拡張 | Accuracy | テキスト分類(各言語のデータセット追加) |
| Clustering | 言語拡張 | V-measure | 意味的クラスタリング |
| STS | 言語拡張 | Spearman相関 | 文間類似度 |
| Reranking | 言語拡張 | MAP | 候補文書の再ランキング |
| Summarization | 言語拡張 | Spearman相関 | 要約品質評価 |
| Bitext Mining | 大幅拡張 | F1 | 対訳ペア発見(新言語ペア追加) |
| Pair Classification | 言語拡張 | AP | テキストペア関係性判定 |
| Instruction Retrieval | 新規 | NDCG@10 | 指示文を考慮した条件付き検索 |
| Long-document Retrieval | 新規 | NDCG@10 | 長文書(数千トークン)の検索 |
Instruction Retrievalは、「ネガティブな意見のみ検索せよ」のような指示文を含むクエリに対する検索精度を評価する。従来のRetrievalタスクがクエリと文書の関連性のみを評価していたのに対し、指示文の理解力も測定できる。
Long-document Retrievalは、数千トークンを超える長文書に対する検索精度を評価する。MTEBの限界として論文が指摘していた「長文書評価の不足」を直接解決する拡張である。
評価フレームワークの設計
MMTEBはMTEBのPythonパッケージ(pip install mteb)に統合されており、同一のAPIで多言語評価が実行できる。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# mmteb_eval_example.py
# MMTEB多言語評価の実行例
# 動作確認: Python 3.11, mteb 2.8.4
import mteb
# 日本語対応モデルの読み込み
model = mteb.get_model("intfloat/multilingual-e5-large")
# 日本語タスクのみフィルタして評価
tasks = mteb.get_tasks(
languages=["jpn"], # ISO 639-3コードで指定
task_types=["Retrieval", "STS"], # タスクタイプで絞り込み
)
results = mteb.evaluate(
model,
tasks=tasks,
output_folder="results/mmteb-japanese",
)
for task_result in results:
print(f"Task: {task_result.task_name}")
print(f" Score: {task_result.get_score():.4f}")
言語フィルタリングにはISO 639-3コードを使用する。日本語は"jpn"、英語は"eng"で指定する。
多言語モデルvs言語特化モデルの分析
著者らの分析による主要な知見を以下にまとめる。
知見1: 多言語モデルはRetrievalで優位
Retrieval(情報検索)タスクでは、bge-m3やmultilingual-e5-large-instructなどの多言語モデルが多くの言語で高スコアを記録している。著者らはこの傾向を、大規模な多言語コーパスでの学習がクロスリンガルな検索能力を強化するためと分析している。
知見2: 言語特化モデルがSTSで競争力を維持
STS(Semantic Textual Similarity)タスクでは、日本語・中国語・アラビア語などの資源豊富な言語において、言語特化モデルが多言語モデルと同等以上のスコアを記録するケースが報告されている。言語固有の微妙な意味的ニュアンスの捕捉には、言語特化の学習データが効果的であると著者らは分析している。
知見3: 低リソース言語では多言語モデルが有利
学習データが限られる言語では、多言語モデルのクロスリンガル転移学習の恩恵が大きく、言語特化モデルとの差が縮小または逆転する傾向が観察されている。
実験結果(Results)
主要モデルの多言語スコア概要
論文で報告されている上位モデルを以下に示す(論文Section 4のランキングに基づく)。
| モデル | 開発元 | 言語数 | 特徴 |
|---|---|---|---|
| voyage-multilingual-2 | Voyage AI | 多言語 | 商用API、検索に強い |
| bge-m3 | BAAI | 多言語 | OSS、密/疎/多ベクトル対応 |
| multilingual-e5-large-instruct | Microsoft | 多言語 | OSS、指示チューニング済み |
| text-embedding-3-large | OpenAI | 多言語 | 商用API、Matryoshka対応 |
| gte-Qwen2-7B-instruct | Alibaba | 多言語 | 7Bパラメータ、OSS |
著者らは「数十億パラメータのLLMベースモデルが特定言語・タスクでSOTAを達成する一方、全言語・全タスクで一様に強いモデルは存在しない」と結論づけている。この知見はMTEB原論文の結論と一貫しており、言語次元でも同様のトレードオフが存在することを大規模に確認した形である。
日本語評価の位置づけ
MMTEBは日本語(jpn)を評価対象言語に含んでおり、JSTS(日本語STS)、MIRACL-ja(日本語検索)等の既存ベンチマークが統合されている。日本語特化のJMTEB(SB Intuitions, 2024)とは互換性があり、MMTEBの日本語サブセットとJMTEBのスコアは概ね一致する傾向にある。
ただし、MMTEBの日本語タスク数はJMTEBの16データセットよりも限定的である。日本語Embeddingモデルの詳細な評価にはJMTEBの直接実行が推奨される。MMTEBの価値は、日本語モデルと他言語モデルの「言語間比較」を可能にする点にある。
実装のポイント(Implementation)
MMTEBを実際に活用する際の注意点をまとめる。
評価コストの管理: 500以上のデータセット全評価は非現実的である。著者らも論文のLimitationsで認めているとおり、対象言語とタスクを絞って評価することが推奨される。日本語RAGシステムのモデル選定なら、languages=["jpn"]とtask_types=["Retrieval"]でフィルタリングすれば十分である。
言語間不均一性への注意: 言語によってデータセット数・品質に大きな差がある。英語は数百タスクが利用可能だが、一部の低リソース言語は数タスクのみである。スコアの比較は同一言語・同一タスク間で行うべきである。
商用モデルの評価コスト: OpenAI text-embedding-3-largeやVoyage AIモデルをMMTEBで全評価すると、API課金が発生する。コスト見積もりについて、Zenn記事で解説したとおり、1,000クエリ × 10,000ドキュメントのエンコードで$0.50-$2.00程度(2026年2月時点の公式価格に基づく推定)である。
MTEBパッケージとの統合: MMTEBはMTEBの最新バージョン(v2.8+)に統合されている。pip install mtebでインストールすれば、mteb.get_tasks(languages=["jpn"])で日本語タスクを取得できる。追加パッケージは不要である。
実運用への応用(Practical Applications)
MMTEBの実務的な活用シーンを以下に示す。
多言語RAGシステムのモデル選定: 日本語と英語の両方を扱うRAGシステムでは、多言語モデル(bge-m3等)の採用が有力候補となる。MMTEBにより、日本語と英語の両方の検索精度を同一指標で比較できる。
JMTEBとの併用戦略: 日本語を主対象とするシステムでは、MMTEBの日本語サブセットでの候補絞り込み → JMTEBの16データセットでの詳細評価、という2段階の評価戦略が実用的である。
新規言語への対応判断: 自社サービスを新しい言語に展開する際、MMTEBでその言語のベンチマークスコアを確認し、多言語モデルで十分か、言語特化モデルの開発が必要かを判断できる。
Production Deployment Guide
AWS実装パターン(コスト最適化重視)
多言語Embeddingモデルの推論パイプラインをAWS上で構築する場合の構成を示す。
トラフィック量別の推奨構成:
| 規模 | 月間リクエスト | 推奨構成 | 月額コスト | 主要サービス |
|---|---|---|---|---|
| Small | ~3,000 (100/日) | Serverless | $80-200 | Lambda + SageMaker Serverless + S3 |
| Medium | ~30,000 (1,000/日) | Hybrid | $400-1,000 | ECS Fargate + SageMaker Real-time + ElastiCache |
| Large | 300,000+ (10,000/日) | Container | $2,500-6,000 | EKS + GPU Spot + Karpenter |
Small構成の詳細(月額$80-200):
- Lambda: テキスト前処理・言語検出・バッチ制御($20/月)
- SageMaker Serverless: bge-m3等の多言語モデル推論($120/月)
- S3: 多言語コーパス・評価結果保存($10/月)
- CloudWatch: 多言語リクエスト分布の監視($5/月)
コスト試算の注意事項:
- 上記は2026年2月時点のAWS ap-northeast-1(東京)リージョン料金に基づく概算値です
- 多言語モデル(bge-m3等)はパラメータ数が大きいため、単言語モデルより推論コストが高くなります
- 最新料金は AWS料金計算ツール で確認してください
Terraformインフラコード
Small構成(Serverless): Lambda + SageMaker Serverless + S3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# --- S3バケット(多言語コーパス・評価結果保存) ---
resource "aws_s3_bucket" "mmteb_data" {
bucket = "mmteb-multilingual-data"
}
resource "aws_s3_bucket_server_side_encryption_configuration" "mmteb_data" {
bucket = aws_s3_bucket.mmteb_data.id
rule {
apply_server_side_encryption_by_default {
sse_algorithm = "aws:kms"
}
}
}
# --- IAMロール(最小権限) ---
resource "aws_iam_role" "lambda_mmteb" {
name = "lambda-mmteb-eval-role"
assume_role_policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Action = "sts:AssumeRole"
Effect = "Allow"
Principal = { Service = "lambda.amazonaws.com" }
}]
})
}
# --- Lambda関数(多言語前処理) ---
resource "aws_lambda_function" "multilingual_preprocessor" {
filename = "lambda.zip"
function_name = "mmteb-multilingual-preprocessor"
role = aws_iam_role.lambda_mmteb.arn
handler = "index.handler"
runtime = "python3.12"
timeout = 300
memory_size = 1024
environment {
variables = {
S3_BUCKET = aws_s3_bucket.mmteb_data.bucket
}
}
}
運用・監視設定
CloudWatch Logs Insights クエリ:
1
2
3
4
5
6
-- 言語別のEmbeddingリクエスト分布を可視化
fields @timestamp, language, model_name, latency_ms
| stats count(*) as request_count,
avg(latency_ms) as avg_latency
by language, bin(1h)
| sort request_count desc
コスト最適化チェックリスト
- ~100 req/日 → Lambda + SageMaker Serverless($80-200/月)
- ~1000 req/日 → ECS Fargate + SageMaker Real-time($400-1,000/月)
- 10000+ req/日 → EKS + GPU Spot Instances($2,500-6,000/月)
- 多言語モデルの推論バッチ化: 複数言語のリクエストを1バッチに統合
- 言語別のモデル選択ロジック: 高頻度言語には専用モデル、低頻度言語には多言語モデルで分岐
- SageMaker Serverless: アイドル時ゼロコスト(コールドスタート許容の場合)
- ElastiCache: 頻出クエリの埋め込みキャッシュで推論コスト削減
- AWS Budgets: 月額予算設定(80%で警告、100%でアラート)
- CloudWatch アラーム: SageMaker推論レイテンシスパイク検知
- Cost Anomaly Detection: 自動異常検知有効化
- タグ戦略: 言語別・環境別でコスト可視化
- ライフサイクルポリシー: S3の古い評価結果を自動削除
- 開発環境: SageMakerエンドポイントの夜間削除
関連研究(Related Work)
- MTEB (Muennighoff et al., 2022, arXiv:2210.07316): MMTEBの前身。英語中心の8タスク・56データセット。MMTEBはこの枠組みを多言語に拡張
- JMTEB (Oshikiri et al., 2024): 日本語特化のベンチマーク。6タスク・16データセット。MMTEBの日本語サブセットと概ね互換
- BEIR (Thakur et al., 2021, arXiv:2104.08663): 情報検索ベンチマーク。MMTEBのRetrievalタスクの設計に影響
まとめと今後の展望
MMTEBは、テキスト埋め込みモデルの評価を英語中心から多言語に拡張した論文である。250以上の言語・500以上のデータセットを統一フレームワークで評価可能にし、多言語モデルと言語特化モデルの客観的比較を実現した。
著者らの「全言語・全タスクで一様に強いモデルは存在しない」という知見は、MTEB原論文のタスク間トレードオフの発見を言語次元に拡張したものであり、日本語を含む各言語のユースケースに応じたモデル選定の重要性を改めて示している。
実務的には、MMTEBの日本語サブセットで候補モデルを絞り込み、JMTEBの16データセットで詳細評価し、さらに自社ドメインデータで最終判断を行う3段階の評価戦略が推奨される。
参考文献
- arXiv: https://arxiv.org/abs/2502.13595
- Code: https://github.com/embeddings-benchmark/mteb(MMTEB統合済み、Apache 2.0)
- Leaderboard: https://huggingface.co/spaces/mteb/leaderboard
- Related Zenn article: https://zenn.dev/0h_n0/articles/6388d71c6bcb23