本記事は TextGrad: Automatic “Differentiation” via Text (arXiv:2406.07496) の解説記事です。
論文概要(Abstract)
TextGradは、LLMを用いた「テキスト空間での自動微分」を実現するフレームワークである。著者らは、複合AIシステム内の各コンポーネントに対し、LLMが自然言語でフィードバック(テキスト勾配)を生成し、そのフィードバックに基づいて変数(プロンプト、コード、分子構造等)を反復的に改善する手法を提案している。PyTorchのAutograd APIに倣った設計により、実装者にとって馴染み深いインターフェースを提供する。
この記事は Zenn記事: DSPy×TextGrad比較で学ぶプロンプト自動最適化パイプラインの実践構築 の深掘りです。
情報源
- arXiv ID: 2406.07496
- URL: https://arxiv.org/abs/2406.07496
- 著者: Mert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang, Carlos Guestrin, James Zou(Stanford University)
- 発表年: 2024(Nature 2025掲載: doi:10.1038/s41586-025-08661-4)
- 分野: cs.CL, cs.AI, cs.LG
- GitHub: https://github.com/zou-group/textgrad
背景と動機(Background & Motivation)
深層学習の成功は、自動微分(Autograd)による勾配計算とバックプロパゲーションに支えられている。しかし、LLMを組み込んだ複合AIシステムでは、テキスト入出力が離散的であるため、数値勾配の計算が本質的に困難である。
著者らは、この問題を「LLM自身にフィードバックを言語化させる」というアプローチで解決する。数値微分における勾配 $\nabla_x \mathcal{L}$ の代わりに、LLMが「この出力をどう改善すべきか」を自然言語で記述する「テキスト勾配」を導入した。
従来のプロンプト最適化手法(APE, OPRO, DSPy等)はプロンプトテキストの最適化に特化していたが、TextGradはプロンプトに限らず、コードスニペット・分子構造・治療計画など、テキストで表現可能なあらゆる変数を最適化対象にできる汎用性を持つ。
主要な貢献(Key Contributions)
- 貢献1: テキスト空間での自動微分フレームワークの提案。数値勾配のアナロジーとして「テキスト勾配」(自然言語によるフィードバック)を定式化
- 貢献2: PyTorchライクなAPI設計(
Variable,Loss,Optimizer)により、実装の学習コストを低減 - 貢献3: 質問応答・コード最適化・分子設計・放射線治療計画という多領域での有効性実証(Nature 2025掲載)
技術的詳細(Technical Details)
テキスト勾配の定式化
TextGradの中核は、計算グラフ上の各ノードに対して「テキスト勾配」を逆伝播させる仕組みである。
graph LR
X[入力変数 x] --> F1[LLM Call 1]
F1 --> Z[中間変数 z]
Z --> F2[LLM Call 2]
F2 --> Y[出力 y]
Y --> L[損失関数 L]
L -.->|テキスト勾配| Y
Y -.->|テキスト勾配| Z
Z -.->|テキスト勾配| X
数値微分では、損失関数 $\mathcal{L}$ に対する変数 $x$ の勾配は連鎖律で計算される:
\[\frac{\partial \mathcal{L}}{\partial x} = \frac{\partial \mathcal{L}}{\partial y} \cdot \frac{\partial y}{\partial z} \cdot \frac{\partial z}{\partial x}\]TextGradでは、この各偏微分を「LLMによる自然言語フィードバック」で置き換える:
\[\text{TG}(x) = \text{LLM}\left(\text{context}: z, y, \mathcal{L}; \; \text{query}: \text{"How should } x \text{ be improved?"}\right)\]ここで、
- $\text{TG}(x)$: 変数 $x$ に対するテキスト勾配(自然言語の改善提案)
- $z$: 中間変数の値
- $y$: 最終出力
- $\mathcal{L}$: 損失関数の評価結果
PyTorchライクAPI
著者らは、PyTorchのtorch.Tensor・torch.nn.Module・torch.optimに対応する抽象化を設計している。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import textgrad as tg
# PyTorchの torch.Tensor に相当
# requires_grad=True で最適化対象として指定
system_prompt = tg.Variable(
"You are a helpful assistant.",
role_description="system prompt for the LLM",
requires_grad=True, # この変数を最適化する
)
# PyTorchの forward pass に相当
model = tg.BlackboxLLM(
engine="gpt-4o",
system_prompt=system_prompt,
)
# 入力(最適化しない)
question = tg.Variable(
"What is the capital of France?",
role_description="question to answer",
requires_grad=False,
)
# 順伝播
answer = model(question)
# PyTorchの loss function に相当
loss_fn = tg.TextLoss(
eval_system_prompt="Evaluate the answer for correctness and helpfulness.",
engine="gpt-4o",
)
loss = loss_fn(answer)
# 逆伝播: テキスト勾配を計算
loss.backward()
# PyTorchの optimizer.step() に相当
optimizer = tg.TGD(parameters=[system_prompt])
optimizer.step()
# system_prompt.value が改善された内容に更新される
print(system_prompt.value)
TGD (TextGrad Descent) オプティマイザ
TGDは、勾配降下法のテキスト版である。数値最適化における更新則:
\[x_{t+1} = x_t - \eta \nabla_x \mathcal{L}\]に対して、TGDは以下の更新を行う:
\[x_{t+1} = \text{LLM}\left(\text{current}: x_t, \; \text{gradient}: \text{TG}(x_t), \; \text{instruction}: \text{"Apply the feedback"}\right)\]著者らは、LLMに「現在の値」と「テキスト勾配(改善提案)」を与え、改善後の値を生成させる。この更新はdeterministic ではないため、同じテキスト勾配を適用しても異なる結果が得られうる点が数値最適化との重要な相違点である。
DSPyとの設計思想の根本的な違い
Zenn記事で述べたとおり、DSPyとTextGradは最適化のタイミングが根本的に異なる。
| 設計軸 | DSPy | TextGrad |
|---|---|---|
| 最適化タイミング | compile-time(事前) | test-time(推論時) |
| 最適化対象 | プロンプト(命令文 + few-shot例) | テキストで表現可能なあらゆる変数 |
| 推論時コスト | 固定(追加LM呼び出しなし) | 増加(各入力で逆伝播が走る) |
| 結果の再現性 | 高い(JSONで固定) | 低い(LLMの出力が非決定的) |
| 汎用性 | LMパイプライン特化 | LM以外(分子設計、治療計画等)にも適用可能 |
この違いは、著者らの問題設定の違いに起因する。DSPyは「プロンプトエンジニアリングの自動化」を目指しているのに対し、TextGradは「テキストで表現可能なあらゆる最適化問題」を射程に含めている。
実装のポイント(Implementation)
TextGradを実装する際の注意点を整理する。
requires_gradの適切な設定: 最適化したい変数のみrequires_grad=Trueに設定する。すべての変数を最適化対象にすると、逆伝播のLM呼び出し回数が増大し、コストが爆発する評価LMの選択: テキスト勾配を生成するLMは、最適化対象のLMより能力が高いことが望ましい。著者らはGPT-4oを評価LMとして使用している
過学習の早期検知: NTTドコモの検証事例(Zenn記事参照)で報告されているように、TextGradは反復が進むとルールが過剰に追加され精度が低下するリスクがある。バリデーションセットでの精度をステップごとに監視し、Early Stoppingを実装することが推奨される
コスト管理: 各最適化ステップで逆伝播用のLM呼び出しが発生するため、ステップ数 × 変数数 × LM呼び出しコストの積算が必要
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# Early Stoppingの実装例
best_val_score = 0.0
patience = 3
no_improve_count = 0
for step in range(max_steps):
loss = loss_fn(model(val_input))
loss.backward()
optimizer.step()
val_score = evaluate(model, val_set)
if val_score > best_val_score:
best_val_score = val_score
best_prompt = system_prompt.value
no_improve_count = 0
else:
no_improve_count += 1
if no_improve_count >= patience:
print(f"Early stopping at step {step}")
system_prompt.set_value(best_prompt)
break
Production Deployment Guide
AWS実装パターン(コスト最適化重視)
TextGradは推論時にも逆伝播(LM呼び出し)が発生するため、DSPyと比較して推論コストが高い。本番では「最適化済みプロンプトの固定化」か「オンライン最適化」かを明確に選択する必要がある。
トラフィック量別の推奨構成:
| 規模 | 月間リクエスト | 推奨構成 | 月額コスト | 主要サービス |
|---|---|---|---|---|
| Small | ~3,000 (100/日) | Serverless | $80-200 | Lambda + Bedrock + DynamoDB |
| Medium | ~30,000 (1,000/日) | Hybrid | $500-1,200 | Lambda + ECS Fargate + ElastiCache |
| Large | 300,000+ (10,000/日) | Container | $3,000-8,000 | EKS + Karpenter + EC2 Spot |
注意: TextGradのtest-time最適化を有効にする場合、各リクエストで追加のLM呼び出しが発生するため、DSPyと比較してBedrock利用料が2-5倍になる。本番ではTextGradで事前最適化したプロンプトを固定して使う構成(DSPyのcompile-timeアプローチと同等)が推奨される。
Small構成の詳細 (月額$80-200):
- Lambda: 1GB RAM, 120秒タイムアウト ($30/月) — TextGradの逆伝播はDSPyよりタイムアウトが長い
- Bedrock: Claude 3.5 Haiku ($100/月) — test-time最適化なしの場合
- DynamoDB: On-Demand ($10/月) — 最適化済みプロンプトの保存
コスト試算の注意事項: 上記は2026年3月時点のAWS ap-northeast-1(東京)リージョン料金に基づく概算値です。TextGradのtest-time最適化を有効にする場合、Bedrockコストは2-5倍に増加します。最新料金は AWS料金計算ツール で確認してください。
Terraformインフラコード
Small構成 (Serverless):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
module "vpc" {
source = "terraform-aws-modules/vpc/aws"
version = "~> 5.0"
name = "textgrad-vpc"
cidr = "10.0.0.0/16"
azs = ["ap-northeast-1a", "ap-northeast-1c"]
private_subnets = ["10.0.1.0/24", "10.0.2.0/24"]
enable_nat_gateway = false
enable_dns_hostnames = true
}
resource "aws_iam_role" "lambda_textgrad" {
name = "lambda-textgrad-role"
assume_role_policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Action = "sts:AssumeRole"
Effect = "Allow"
Principal = { Service = "lambda.amazonaws.com" }
}]
})
}
resource "aws_iam_role_policy" "bedrock_invoke" {
role = aws_iam_role.lambda_textgrad.id
policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Effect = "Allow"
Action = ["bedrock:InvokeModel"]
Resource = "arn:aws:bedrock:ap-northeast-1::foundation-model/anthropic.claude-*"
}]
})
}
resource "aws_lambda_function" "textgrad_inference" {
filename = "lambda.zip"
function_name = "textgrad-inference"
role = aws_iam_role.lambda_textgrad.arn
handler = "index.handler"
runtime = "python3.12"
timeout = 120
memory_size = 1024
environment {
variables = {
BEDROCK_MODEL_ID = "anthropic.claude-3-5-haiku-20241022-v1:0"
DYNAMODB_TABLE = aws_dynamodb_table.textgrad_cache.name
OPTIMIZATION_MODE = "offline"
}
}
}
resource "aws_dynamodb_table" "textgrad_cache" {
name = "textgrad-prompt-cache"
billing_mode = "PAY_PER_REQUEST"
hash_key = "prompt_hash"
attribute {
name = "prompt_hash"
type = "S"
}
ttl {
attribute_name = "expire_at"
enabled = true
}
}
セキュリティベストプラクティス
- IAMロール: Bedrock呼び出しは特定モデルに限定(ワイルドカード最小化)
- Lambda VPC配置: 本番環境ではVPC内に配置し、NAT Gatewayを経由
- Secrets Manager: APIキーのハードコード禁止
- 暗号化: DynamoDB KMS暗号化有効化
コスト最適化チェックリスト
- TextGradのtest-time最適化は本番で必要か判断(不要なら無効化)
- 事前最適化 → プロンプト固定化で推論コスト削減
- Bedrock Batch APIで最適化フェーズのコスト50%削減
- Prompt Caching有効化(固定プロンプト利用時)
- Lambda タイムアウト調整(TextGradは長め設定)
- Early Stopping実装で最適化ステップ数を制限
- AWS Budgets設定(TextGradはLM呼び出し数が多い)
- CloudWatch アラーム: Bedrockトークンスパイク検知
- Spot Instances活用(バッチ最適化時)
- 開発環境はHaiku、本番はSonnetでコスト分離
実験結果(Results)
著者らは、4つの異なる領域でTextGradの有効性を検証している(Nature doi:10.1038/s41586-025-08661-4 より)。
| タスク | ベースライン | TextGrad適用後 | 改善 |
|---|---|---|---|
| Google-Proof QA (GPT-4o) | 51% | 55% | +4pt |
| LeetCode-Hard | — | +20% (相対) | — |
| 分子設計 (druglikeness) | — | 好ましい結合特性 | — |
| 放射線治療計画 | — | 高い特異性 | — |
著者らは「the framework operates without requiring task-specific modifications or prompt engineering」と主張しており、タスク固有の調整なしに多領域で改善を達成した点が特徴的である。
ただし、NTTドコモの検証事例(Zenn記事参照)では、カスタマーサポート分類タスクにおいてTextGradが最高93.33%を記録した一方、過学習により最終的に68.33%に低下したことが報告されている。この不安定性は、テキスト勾配の非決定性と、最適化ステップが進むにつれてルールが過剰に蓄積される問題に起因すると考えられる。
実運用への応用(Practical Applications)
TextGradの実運用での最適なユースケースは以下の通りである。
1. プロトタイプ段階のプロンプト探索: 新しいタスクのプロンプトを初期設計する際、TextGradで自動的に改善案を生成し、良い出発点を見つける。その後、DSPyのcompile-time最適化で固定化するハイブリッドアプローチが有効
2. マルチモーダル最適化: テキスト以外の変数(コード、設定ファイル、クエリ等)を最適化する場合、DSPyのSignatureベースのアプローチでは表現が困難な問題をTextGradでカバーできる
3. デバッグツールとしての活用: テキスト勾配は人間が読める改善提案であるため、パイプラインのどの部分に問題があるかを自然言語で診断するデバッグツールとして有用
制約事項: TextGradのtest-time最適化は、各リクエストで逆伝播用のLM呼び出しが必要なため、レイテンシとコストが増加する。リアルタイム応答が求められるシステムでは、事前最適化 + プロンプト固定化が現実的である。
関連研究(Related Work)
- DSPy (Khattab et al., 2023): compile-time最適化で推論コストを固定化するアプローチ。TextGradの汎用性とはトレードオフの関係にある
- ProTeGi (Pryzant et al., 2023): テキストフィードバックによるプロンプト最適化の先行研究。TextGradはこれを計算グラフ全体に拡張している
- OPRO (Yang et al., 2023): LMをオプティマイザとして活用する手法。TextGradはより形式的な自動微分の枠組みを提供している
まとめと今後の展望
TextGradは、テキスト空間での自動微分という新しいパラダイムを提案し、Nature 2025に掲載された。著者らの実験では、質問応答・コード最適化・分子設計・放射線治療計画という多領域で改善が報告されている。
DSPyとの使い分けとして、TextGradはプロトタイプ段階の探索や非テキスト変数の最適化に向いており、本番環境での安定運用にはDSPyのcompile-timeアプローチが適している。両フレームワークを組み合わせた「TextGradで探索 → DSPyで固定化」のハイブリッドワークフローが、実務では有効な選択肢となる。
参考文献
- arXiv: https://arxiv.org/abs/2406.07496
- Nature: https://www.nature.com/articles/s41586-025-08661-4
- Code: https://github.com/zou-group/textgrad
- Related Zenn article: https://zenn.dev/0h_n0/articles/925acb0262a64d
本記事は arXiv:2406.07496 の解説記事です。記載内容は論文の記述に基づいており、筆者が独自に実験を行ったものではありません。