論文解説: Cost-Aware Model Selection for Text Classification

論文概要（Abstract）

本記事は https://arxiv.org/abs/2602.06370 の解説記事です。

テキスト分類タスクにおいて、ファインチューニングされたBERT系エンコーダモデルとLLMプロンプティング（GPT-4o、Claude Sonnet 4.5）を、予測品質（Macro F1）・推論コスト（USD）・レイテンシ（ms）の3軸で多目的比較した研究である。4つの標準ベンチマーク（IMDB、SST-2、AG News、DBPedia）において、エンコーダモデルがLLMと同等以上の分類性能を1-2桁低いコストとレイテンシで達成することを、パレートフロンティア分析とパラメトリック効用関数により定量的に示している。プロダクション環境におけるテキスト分類でのLLM採用に再考を促す実証的な比較研究である。

この記事は Zenn記事: Amazon Bedrock Novaバッチ推論で社内問い合わせ分類のコストを50%削減するの深掘りです。

情報源

arXiv ID: 2602.06370
URL: arXiv:2602.06370
著者: Alberto Andres Valdes Gonzalez
発表年: 2026年2月
分野: Computation and Language (cs.CL) / Machine Learning (cs.LG)
コード: GitHub - anvaldes/Finetuned-encoders-LLM-Prompting
デプロイコード: GitHub - anvaldes/bert-family-deploy

背景と動機（Background）

テキスト分類のモデル選択問題

GPT-4oやClaude Sonnet 4.5のような大規模言語モデル（LLM）の登場により、テキスト分類タスクにおいてもゼロショット・フューショットプロンプティングが広く採用されるようになった。しかし、プロダクション環境でのテキスト分類は固定ラベル集合への分類という明確に定義されたタスクであり、LLMの汎用的な推論能力が本当に必要かという問いが生じる。

従来、モデル選択は精度（F1スコア）のみで評価されることが多かった。しかし、実運用では推論コストとレイテンシが意思決定に大きく影響する。100万リクエストあたりのコストが数十ドルと数千ドルでは、事業インパクトが根本的に異なる。

本論文の著者は、この問題を多目的最適化のフレームワークで定式化し、「精度のわずかな向上がコストの大幅な増加を正当化するか」を定量的に評価できる手法を提案している。これは、Zenn記事で取り上げたAmazon Bedrock Novaバッチ推論によるコスト削減と同じ問題意識であり、モデル選択の経済合理性を学術的に分析した研究といえる。

主要な貢献

本論文の主要な貢献を以下に整理する。

多目的評価フレームワークの提案: 予測品質・コスト・レイテンシを統合する効用関数を定義し、パレートフロンティア分析と組み合わせることで、モデル選択を定量的な最適化問題として扱える手法を提示
包括的な実証比較: BERT、RoBERTa、DistilBERTの3つのエンコーダモデルと、GPT-4o、Claude Sonnet 4.5の2つのLLM（ゼロショット・フューショット）を、4つの標準ベンチマークで網羅的に評価
プロダクション条件での測定: Google Cloud Run上でのエンコーダモデルデプロイと、API経由のLLM推論という、実際のプロダクション環境を反映した条件でコストとレイテンシを測定
フューショットの限定的効果の実証: フューショットプロンプティングが入力トークンを2-4倍に増加させる一方、精度向上は限定的であることを全データセットで確認
実験の完全な再現可能性: コード、データセット、評価プロトコル、プロンプトテンプレートをすべて公開

技術的詳細

多目的最適化フレームワーク

著者は、テキスト分類モデルの評価を3つの目的関数の同時最適化問題として定式化している。

パレートフロンティア分析

あるモデル $m_1$ がモデル $m_2$ をパレート支配するとは、すべての目的（F1、コスト、レイテンシ）において $m_1$ が $m_2$ と同等以上であり、少なくとも1つの目的で厳密に優れている場合をいう。パレート支配されないモデルの集合がパレートフロンティアを形成する。

論文では、以下の3つの2次元射影でパレートフロンティアを可視化している。

F1 vs. コスト
コスト vs. レイテンシ
F1 vs. レイテンシ

パラメトリック効用関数

著者はさらに、3つの目的を単一スカラー値に集約する効用関数を定義している。

\[U(F_1, C, L) = \frac{F_1}{C} \cdot \exp\left(-\frac{L_{50}}{\tau}\right)\]

ここで各変数は以下のとおりである。

変数	定義	単位
$F_1$	Macro F1スコア	0-100
$C$	1リクエストあたりの推論コスト	USD
$L_{50}$	レイテンシの中央値（p50）	ms
$\tau$	レイテンシ許容パラメータ	ms

この効用関数は、コストあたりのF1スコア（$F_1 / C$）をベースとし、レイテンシによる指数的なペナルティ（$\exp(-L_{50}/\tau)$）を乗じる構造をもつ。$\tau$ が小さいほどレイテンシに対して厳しく、大きいほど寛容になる。

著者は $\tau$ に3つの値を設定して評価を行っている。

$\tau = 250$ ms: インタラクティブ/レイテンシ敏感なアプリケーション
$\tau = 500$ ms: プロダクションデフォルト
$\tau = 1000$ ms: バッチ処理/レイテンシ許容アプリケーション

チェックポイント選択基準

ファインチューニングにおけるチェックポイント選択には、以下のギャップペナルティ付きスコアを使用している。

\[\text{Score} = F_{1,\text{val}} - |F_{1,\text{val}} - F_{1,\text{train}}|\]

この指標は、検証F1スコアの高さと訓練・検証F1間の乖離の小ささを同時に考慮する。過学習したモデル（訓練F1が高いが検証F1が低い）にペナルティを課す設計である。

評価対象モデルとデータセット

エンコーダモデル（ファインチューニング）

モデル	パラメータ数	特徴
BERT	110M	Transformerエンコーダの標準モデル
RoBERTa	125M	BERTの訓練手法を改善
DistilBERT	66M	BERTの蒸留版（40%小型化）

LLM（プロンプティング）

モデル	方式	入力価格	出力価格
GPT-4o	Zero-shot / Few-shot	$2.50/1Mトークン	$10.00/1Mトークン
Claude Sonnet 4.5	Zero-shot / Few-shot	$3.00/1Mトークン	$15.00/1Mトークン

※価格は2026年1月22日時点のもの。

ベンチマークデータセット

データセット	タスク	クラス数	訓練データ	テストデータ
IMDB	感情分析	2	25,000	12,500
SST-2	感情分析	2	47,144	10,103
AG News	トピック分類	4	120,000	3,800
DBPedia	エンティティ分類	14	560,000	7,000

実験設定の詳細

ファインチューニング: NVIDIA A100 GPU（Google Colab）で実施。オプティマイザにはAdamW（weight decay付き）を使用し、最大4エポックまで訓練。各エンコーダ・データセットペアに対して3つのランダムシードで実行し、平均と標準偏差を報告。

LLMプロンプティング: 温度パラメータ $T = 0.0$（決定的出力）、top-p = 1.0に設定。出力は単一クラスラベルに制約。フューショットでは訓練セットからクラスバランスを考慮して例示を選択し、全実行で固定。API経由で3回独立に実行。

デプロイ環境: エンコーダモデルはGoogle Cloud Run上にコンテナとしてデプロイ（2 vCPU、2 GiBメモリ）。ウォームアップ10回実行後にレイテンシを測定。LLMはAPI経由で推論し、TTFT（Time to First Token）と総レイテンシの両方を記録。

実験結果

データセット別の分類性能（Macro F1）

以下に、各データセットにおける全モデルのMacro F1スコアを示す（論文Table 2-5より）。

IMDB感情分析

モデル	F1 (%)	コスト (USD/100万件)	レイテンシ p50 (ms)
BERT	93.43 ± 0.21	$25.44	480
DistilBERT	92.73 ± 0.08	$12.44	235
RoBERTa	94.84 ± 0.12	$32.98	622
GPT-4o ZS	96.11 ± 0.06	$842.78	345
GPT-4o FS	96.16 ± 0.02	$1,537.78	395
Claude 4.5 ZS	96.45 ± 0.01	$1,174.95	1,313
Claude 4.5 FS	96.48 ± 0.01	$2,120.01	1,315

IMDBでは、LLMがエンコーダモデルを1-2ポイント上回る。ただし、RoBERTa（94.84%）とGPT-4o ZS（96.11%）の差は1.3ポイントに過ぎない一方、コストは26倍、レイテンシも同程度である。フューショットプロンプティングは平均入力トークンをほぼ倍増（GPT-4o: 333→611トークン）させるが、F1の改善は0.05ポイント（96.11→96.16%）にとどまっている。

SST-2感情分析

モデル	F1 (%)	コスト (USD/100万件)	レイテンシ p50 (ms)
BERT	94.42 ± 0.10	$7.79	147
DistilBERT	93.49 ± 0.11	$5.19	98
RoBERTa	93.59 ± 0.23	$7.07	133
GPT-4o ZS	87.00 ± 0.07	$192.48	377
GPT-4o FS	90.45 ± 0.03	$387.48	326
Claude 4.5 ZS	91.78 ± 0.01	$326.67	1,394
Claude 4.5 FS	94.41 ± 0.06	$599.67	1,109

SST-2では、エンコーダモデルがLLMを明確に上回る結果が得られている。特にGPT-4oのゼロショットは87.00%とBERT（94.42%）に7.4ポイントの差をつけられている。Claude 4.5のフューショット（94.41%）でようやくBERTと同等の水準に達するが、コストは77倍（$599.67 vs $7.79）、レイテンシは7.5倍（1,109ms vs 147ms）である。

AG Newsトピック分類

モデル	F1 (%)	コスト (USD/100万件)	レイテンシ p50 (ms)
BERT	94.43 ± 0.10	$10.44	197
DistilBERT	94.11 ± 0.07	$5.73	108
RoBERTa	94.63 ± 0.14	$10.00	189
GPT-4o ZS	87.93 ± 0.25	$276.00	411
GPT-4o FS	89.65 ± 0.13	$903.50	332
Claude 4.5 ZS	91.35 ± 0.11	$440.58	1,435
Claude 4.5 FS	90.56 ± 0.06	$1,271.58	1,003

AG Newsでは、3つのエンコーダモデルが94-95%の範囲で収束している一方、最良のLLM（Claude 4.5 ZS: 91.35%）でも3ポイント以上の差がある。GPT-4oのフューショットでは入力トークンが3倍以上（106→357トークン）に増加するが、F1の改善は1.7ポイントにとどまる。

DBPediaエンティティ分類

モデル	F1 (%)	コスト (USD/100万件)	レイテンシ p50 (ms)
BERT	99.40 ± 0.04	$10.77	203
DistilBERT	99.40 ± 0.01	$7.03	133
RoBERTa	99.33 ± 0.06	$10.90	206
GPT-4o ZS	96.12 ± 0.03	$463.20	406
GPT-4o FS	97.06 ± 0.07	$1,903.20	417
Claude 4.5 ZS	98.83 ± 0.04	$751.89	1,128
Claude 4.5 FS	98.39 ± 0.04	$2,701.89	1,127

DBPediaは14クラスの分類タスクだが、エンコーダモデルは99.4%という天井近い性能を達成している。LLMは96-98%の範囲にとどまり、特にGPT-4oのフューショットでは入力トークンが4倍以上（181→757トークン）に増加するにもかかわらず、エンコーダを超えることができない。

効用関数によるモデルランキング

著者が定義した効用関数 $U$ によるランキングでは、すべてのデータセット・すべてのレイテンシ許容値 $\tau$ においてDistilBERTが第1位となっている（論文Table 6-9より）。

以下にIMDBデータセットの結果を示す（$100 \times U$ の値）。

モデル	$\tau = 250$ ms	$\tau = 500$ ms	$\tau = 1000$ ms
DistilBERT	2.91 (1位)	4.66 (1位)	5.89 (1位)
BERT	0.54 (2位)	1.41 (2位)	2.27 (2位)
RoBERTa	0.24 (3位)	0.83 (3位)	1.54 (3位)
GPT-4o ZS	0.03 (4位)	0.06 (4位)	0.08 (4位)
GPT-4o FS	0.01 (5位)	0.03 (5位)	0.04 (5位)
Claude 4.5 ZS	0.00 (6位)	0.01 (6位)	0.02 (6位)
Claude 4.5 FS	0.00 (7位)	0.00 (7位)	0.01 (7位)

DistilBERTの効用値は、2位のBERTに対して2-5倍、LLMに対しては50-100倍以上の差がある。この傾向は4つのデータセットすべてで一貫している。レイテンシに寛容な $\tau = 1000$ msの設定でも、DistilBERTの優位性は変わらない。

コスト比較の全体像

4データセットを横断した全体的なコスト比較を図示する。

graph LR
    subgraph エンコーダ
        A["DistilBERT<br>$5-12/100万件"]
        B["BERT<br>$8-25/100万件"]
        C["RoBERTa<br>$7-33/100万件"]
    end
    subgraph LLM
        D["GPT-4o ZS<br>$192-843/100万件"]
        E["GPT-4o FS<br>$387-1,903/100万件"]
        F["Claude 4.5 ZS<br>$327-1,175/100万件"]
        G["Claude 4.5 FS<br>$600-2,702/100万件"]
    end
    A -->|"50-200x<br>コスト差"| D

エンコーダモデルは全データセットを通じて$5-33/100万リクエストの範囲に収まる一方、LLMプロンプティングは$192-2,702/100万リクエストの範囲となっている。フューショットプロンプティングはコストをほぼ倍増させるが、精度向上は限定的である。

パレートフロンティア分析の要点

論文のFigure 1-4（F1 vs. コスト、コスト vs. レイテンシ、F1 vs. レイテンシの2次元射影）から、以下の傾向が読み取れる。

エンコーダモデルはパレート最適領域を占有: 低コスト・低レイテンシの左下象限にエンコーダモデルが集中し、LLMは高コスト領域に分布する
F1軸での差は小さいがコスト軸での差は大きい: 特にSST-2、AG News、DBPediaではエンコーダがF1でもLLMを上回り、コスト・レイテンシの優位性と合わせて完全にパレート支配する
IMDBのみLLMがF1で若干優位: ただし、1.6ポイントのF1差が33-170倍のコスト増を正当化するかは、ユースケースに依存する

実装のポイント

再現方法

著者は実験の完全な再現に必要な資材を公開している。

実験コード: github.com/anvaldes/Finetuned-encoders-LLM-Prompting - 評価スクリプト、メトリクス計算コード、ハイパーパラメータ設定、訓練ログ、チェックポイント
デプロイコード: github.com/anvaldes/bert-family-deploy - Google Cloud Runへのエンコーダモデルデプロイ用コンテナ仕様
プロンプトテンプレート: 論文のAppendix Cに全データセットのゼロショット・フューショットプロンプトを収録

自分の環境で再現する際の注意点

ファインチューニング: HuggingFace TransformersライブラリのTrainer APIで比較的容易に再現可能。チェックポイント選択にはギャップペナルティ付きスコア（$$F_{1,\text{val}} -

F_{1,\text{val}} - F_{1,\text{train}}

$$）を使用する点に留意

コスト計算: API価格は時期により変動するため、論文の2026年1月時点の価格（GPT-4o: $2.50/$10.00、Claude 4.5: $3.00/$15.00 per 1Mトークン）と現在の価格を比較すること
レイテンシ測定: Cloud Runのコールドスタートを除外するため、ウォームアップ10回を実施した後に測定する手法を採用
LLM出力制約: 温度 $T = 0.0$、出力を単一クラスラベルに制約することで、パース失敗を防ぐ設計

実運用への応用

Zenn記事との関連

関連Zenn記事「Amazon Bedrock Novaバッチ推論で社内問い合わせ分類のコストを50%削減する」では、Amazon Nova Microを使ったバッチ推論によるテキスト分類のコスト最適化を扱っている。本論文の知見は、この記事の取り組みに対して以下の示唆を与える。

Nova Micro選択の妥当性: Zenn記事ではNova Microという比較的小型のLLMをバッチ推論で使用することでコスト削減を実現している。本論文の結果によれば、固定ラベルのテキスト分類タスクではファインチューニングされたBERT系モデルがさらに低コストで同等以上の性能を達成できる可能性がある。Nova Microのバッチ推論で$5-10/100万件程度まで削減できたとしても、DistilBERTならば$5-12/100万件と同等の水準であり、かつリアルタイム推論（p50 < 250ms）が可能である。

ハイブリッドアーキテクチャの検討: 本論文の著者は、LLMは「ハイブリッドアーキテクチャにおける補完的コンポーネント」として位置づけるべきだと述べている。これは実運用において、以下のような設計を示唆する。

graph TD
    A[入力テキスト] --> B{分類タスクの種別}
    B -->|固定ラベル分類| C[DistilBERT/BERT]
    B -->|柔軟な推論が必要| D[LLM]
    C --> E[低コスト・低レイテンシ]
    D --> F[高コスト・高レイテンシ]

固定ラベル分類（感情分析、カテゴリ分類、エンティティ分類）: ファインチューニングされたエンコーダモデルを使用
柔軟な推論が必要なタスク（自由形式の質問応答、要約、分類根拠の生成）: LLMを使用
初期段階やラベルデータが不足する場合: LLMのゼロショットで暫定運用し、ラベルデータ蓄積後にエンコーダモデルへ移行

プロダクション導入時の判断基準

本論文の結果に基づき、テキスト分類モデルの選定には以下の判断基準が有用である。

条件	推奨モデル	根拠
コスト最優先	DistilBERT	全データセットで最高効用、$5-12/100万件
精度最優先（短文）	BERT/RoBERTa	SST-2でLLMを上回る94%台
精度最優先（長文）	RoBERTa	IMDBで94.84%、エンコーダ中最高
ラベルデータなし	Claude 4.5 ZS	ゼロショットで最も安定した性能
レイテンシSLA厳格	DistilBERT	p50 < 250ms、p99 < 660ms

まとめと今後の展望

本論文は、テキスト分類タスクにおけるモデル選択を多目的最適化問題として定式化し、ファインチューニングされたBERT系エンコーダモデルがLLMプロンプティングに対して同等以上の分類性能を1-2桁低いコストとレイテンシで達成することを実証的に示した研究である。特にDistilBERTは、66Mパラメータという軽量さにもかかわらず、全データセット・全レイテンシ許容値で最高効用を記録している。

著者自身が述べる限界として、英語のみの評価であること、ベンチマークデータセットがすべてのプロダクション領域を代表するわけではないこと、API価格が時間とともに変動すること、が挙げられている。今後の方向性としては、多言語・ドメイン特化タスクでの検証、LoRAなどのパラメータ効率的ファインチューニングとの比較、オンプレミス環境でのLLM推論コスト（vLLM等）との比較が期待される。

プロダクション環境でテキスト分類を設計する実務者にとって、本論文は「LLMを使うべきか」という問いに定量的な判断材料を提供する重要な参考文献である。

参考文献

Valdes Gonzalez, A. A. (2026). “Cost-Aware Model Selection for Text Classification: Multi-Objective Trade-offs Between Fine-Tuned Encoders and LLM Prompting in Production.” arXiv:2602.06370. https://arxiv.org/abs/2602.06370
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL-HLT 2019.
Liu, Y., et al. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv:1907.11692.
Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). “DistilBERT, a distilled version of BERT.” NeurIPS Workshop on Energy Efficient Machine Learning and Cognitive Computing.
Kaplan, J., et al. (2020). “Scaling Laws for Neural Language Models.” arXiv:2001.08361.
Kwon, W., et al. (2023). “Efficient Memory Management for Large Language Model Serving with PagedAttention.” SOSP 2023.
Zhao, Z., et al. (2024). “Evaluating Large Language Models for Text Classification.” arXiv.
Bucher, B., & Martini, L. (2024). “Fine-tuned vs. Prompted: A Comparative Study for Text Classification.” arXiv.
Kostina, Y., et al. (2025). “Cost-Performance Trade-offs in NLP Model Selection.” arXiv.

📄 論文解説: Cost-Aware Model Selection for Text Classification

論文概要（Abstract）

情報源

背景と動機（Background）

テキスト分類のモデル選択問題

主要な貢献

技術的詳細

多目的最適化フレームワーク

パレートフロンティア分析

パラメトリック効用関数

チェックポイント選択基準

評価対象モデルとデータセット

エンコーダモデル（ファインチューニング）

LLM（プロンプティング）

ベンチマークデータセット

実験設定の詳細

実験結果

データセット別の分類性能（Macro F1）

IMDB感情分析

SST-2感情分析

AG Newsトピック分類

DBPediaエンティティ分類

効用関数によるモデルランキング

コスト比較の全体像

パレートフロンティア分析の要点

実装のポイント

再現方法

自分の環境で再現する際の注意点

実運用への応用

Zenn記事との関連

プロダクション導入時の判断基準

関連研究

まとめと今後の展望

参考文献

変数	定義	単位
\(F_1\)	Macro F1スコア	0-100
\(C\)	1リクエストあたりの推論コスト	USD
\(L_{50}\)	レイテンシの中央値（p50）	ms
\(\tau\)	レイテンシ許容パラメータ	ms

📄 論文解説: Cost-Aware Model Selection for Text Classification

論文概要（Abstract）

情報源

背景と動機（Background）

テキスト分類のモデル選択問題

主要な貢献

技術的詳細

多目的最適化フレームワーク

パレートフロンティア分析

パラメトリック効用関数

チェックポイント選択基準

評価対象モデルとデータセット

エンコーダモデル（ファインチューニング）

LLM（プロンプティング）

ベンチマークデータセット

実験設定の詳細

実験結果

データセット別の分類性能（Macro F1）

IMDB感情分析

SST-2感情分析

AG Newsトピック分類

DBPediaエンティティ分類

効用関数によるモデルランキング

コスト比較の全体像

パレートフロンティア分析の要点

実装のポイント

再現方法

自分の環境で再現する際の注意点

実運用への応用

Zenn記事との関連

プロダクション導入時の判断基準

関連研究

まとめと今後の展望

参考文献

関連記事

📄 ACL 2025論文解説: 産業テキスト分類における小規模言語モデルの実践的知見

📄 論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ

📄 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュの最適設計