本記事は Introducing GPT-5.5 (OpenAI) および Using GPT-5.5 (API Docs) の解説記事です。
ブログ概要(Summary)
OpenAIは2026年4月23日にGPT-5.5をリリースした。GPT-5.5はreasoning.effortパラメータ(none/low/medium/high/xhigh)で推論深度とレイテンシのトレードオフを制御でき、text.verbosityパラメータで出力の詳細度を調整できる。OpenAIの公式情報によると、GPT-5.5はGPT-5.4と同等のper-tokenレイテンシでありながら、同じタスクを完了するのに必要なトークン数が少ないとされている。ツール呼び出しの精度と効率も向上しており、o3と比較して出力トークンが22%少なく、ツール呼び出し回数が45%少ないと報告されている。
この記事は Zenn記事: Bedrock Managed Agents×GPT-5.5で経費精算フローのレイテンシを削減する の深掘りです。
情報源
- 種別: 企業テックブログ / 公式ドキュメント
- URL: https://openai.com/index/introducing-gpt-5-5/
- 補助資料: https://developers.openai.com/api/docs/guides/latest-model
- 組織: OpenAI
- 発表日: 2026年4月23日
技術的背景(Technical Background)
LLMの推論能力向上は、Chain-of-Thoughtに代表される「推論トークンの増加」によって実現されてきた。しかし、推論トークンの増加はレイテンシとコストの増大を伴う。特にエージェントワークフローでは、各ステップでのモデル呼び出しが逐次実行されるため、トークン効率がフロー全体のパフォーマンスに直結する。
GPT-5.5はこの問題に対し、2つのアプローチで取り組んでいる。
- モデルレベルのトークン効率改善: 同じタスクを少ないトークンで完了する能力の向上
- APIレベルの制御パラメータ:
reasoning.effortとtext.verbosityによるユーザー側からの制御
reasoning.effortパラメータの技術的詳細
パラメータ設計
reasoning.effortはGPT-5シリーズで導入されたパラメータであり、モデルの推論に費やすトークン量を制御する。GPT-5.5では5段階のレベルが提供されている。
flowchart LR
A[none] --> B[low]
B --> C[medium\nデフォルト]
C --> D[high]
D --> E[xhigh]
A ---|レイテンシ最小| A
C ---|バランス| C
E ---|品質最大| E
各レベルの特性をOpenAI公式ガイドに基づいて整理する。
| reasoning.effort | 推論トークン量 | 用途 | 制約事項 |
|---|---|---|---|
none | なし | レイテンシ最優先 | ツール呼び出し・マルチステップ推論が機能しない場合がある |
low | 最小限 | ツール多用ワークフロー | 複雑な条件分岐で精度低下の可能性 |
medium | 中程度(デフォルト) | 品質・レイテンシ・コストのバランス | 推奨起点 |
high | 多い | 複雑なエージェントタスク | レイテンシが増加 |
xhigh | 最大 | 非同期の高難度タスク・評価用 | 大幅なレイテンシ増加 |
OpenAIの公式ドキュメントでは、「より高いreasoning effortが自動的に良いわけではない」と注意が記載されている。過剰な推論は「overthinking」を引き起こし、弱い停止条件と相まって不要なトークンを消費する。
API実装
Bedrock経由でGPT-5.5を呼び出す場合、additionalModelRequestFieldsでreasoning.effortを指定する。
1
2
3
4
5
6
7
8
9
10
11
12
import boto3
bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-east-1")
response = bedrock_runtime.converse(
modelId="openai.gpt-5-5",
messages=[{"role": "user", "content": [{"text": "経費申請の承認ルートを決定してください"}]}],
additionalModelRequestFields={
"reasoning": {"effort": "low"},
"text": {"verbosity": "low"},
},
)
OpenAI API直接呼び出しの場合は以下の形式となる。
1
2
3
4
5
6
7
8
9
10
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
input="経費申請の承認ルートを決定してください",
reasoning={"effort": "low"},
text={"verbosity": "low"},
)
text.verbosityパラメータ
text.verbosityは出力テキストの詳細度を制御するパラメータである。
| text.verbosity | 説明 | 用途 |
|---|---|---|
low | 簡潔な応答 | エージェントの中間ステップ |
medium(デフォルト) | 標準的な詳細度 | ユーザー向け最終応答 |
エージェントワークフローでは、ツール呼び出し結果を次のステップに渡す中間処理でtext.verbosity=lowを使用することで、不要な説明文を省略し、出力トークン数を削減できる。
トークン効率の改善
GPT-5.4との比較
OpenAIの公式情報によると、GPT-5.5は以下のトークン効率改善を実現している。
- 同一reasoning.effortでのトークン削減: GPT-5.4と同じreasoning effortレベルでも、GPT-5.5はより少ない推論トークンで同等の結果を達成する
- o3比較: 高reasoning effortでの比較で、出力トークンが22%少なく、ツール呼び出し回数が45%少ない
トークン削減がマルチステップワークフローで複合的に効く仕組みを数式で示す。
各ステップ$i$でのトークン削減率を$r_i$とすると、$K$ステップのフロー全体でのトークン削減率は以下のようになる。
\[\text{Total tokens}_{\text{GPT-5.5}} = \sum_{i=1}^{K} (1 - r_i) \times T_i^{\text{GPT-5.4}}\]ここで$T_i^{\text{GPT-5.4}}$はGPT-5.4での各ステップのトークン数である。各ステップで独立に削減が適用されるため、ステップ数が多いほどGPT-5.5の効率改善が顕著になる。
例えば、4ステップのワークフローで各ステップ平均20%のトークン削減が実現された場合、全体では $1 - (0.8)^4 = 1 - 0.41 = 0.59$、すなわち約59%のトークン削減が期待される(ただし、これはステップ間でトークン数が等しく、削減率が独立であると仮定した理論値である)。
プロンプトキャッシング
GPT-5.5はプロンプトキャッシングに対応しており、システムプロンプトやツール定義などの固定コンテンツを先頭に配置することで、キャッシュヒット率を最大化できる。OpenAIの公式ガイドでは、以下の配置順序が推奨されている。
1
2
3
4
[キャッシュ対象: システムプロンプト]
[キャッシュ対象: ツール定義]
[キャッシュ対象: Few-shot例]
[動的コンテンツ: ユーザー入力]
キャッシュがヒットした場合、入力トークンのコストが50%削減される。経費精算フローのように、同一のシステムプロンプトとツール定義で多数のリクエストを処理する場合、キャッシュヒット率が高くなりやすい。
ツール呼び出しの改善
精度と効率の向上
OpenAIの公式情報によると、GPT-5.5は以下のツール呼び出し改善を実現している。
- ツール指示への追従性向上: ツール記述に記載された条件やパラメータ制約をより正確に解釈する
- ツールエラーへの対処力向上: ツール実行がエラーを返した場合の回復処理が改善
- 並列・連続ツール呼び出しの積極性: 必要に応じて複数ツールを並列または連続で呼び出す
エージェントワークフローでの推奨設定
Zenn記事で紹介されている経費精算フローの各ステップに対する推奨設定を整理する。
flowchart TD
A[領収書OCR] -->|reasoning.effort=low\ntext.verbosity=low| B[ポリシー判定]
B -->|reasoning.effort=medium\ntext.verbosity=low| C[承認ルーティング]
C -->|reasoning.effort=low\ntext.verbosity=low| D[ERP登録]
D -->|reasoning.effort=low\ntext.verbosity=medium| E[完了通知]
| ステップ | reasoning.effort | text.verbosity | 理由 |
|---|---|---|---|
| OCRパース | low | low | ルールベースに近い構造化処理 |
| ポリシー判定 | medium | low | 条件分岐が複雑、精度が重要 |
| 承認ルーティング | low | low | 金額閾値による決定的ルーティング |
| ERP登録 | low | low | API呼び出しのパラメータ生成 |
| 例外処理 | high | medium | 判断の正確性が最重要 |
ベストプラクティス
OpenAIの公式ドキュメントで推奨されているGPT-5.5の使い方をまとめる。
- 新モデルとして扱う: GPT-5.4のプロンプトをそのまま使わず、ベースラインの再チューニングが必要
- outcome-firstプロンプト: 手順ではなく、期待する結果と成功基準を記述する
- step-by-stepガイダンスの除去: GPT-5.5は自律的に推論ステップを決定するため、過剰な手順指示は不要
- Structured Outputsの活用: プロンプト内のスキーマ定義よりも、APIのStructured Outputs機能を使用する
- キャッシュ効率の最大化: 静的コンテンツをプロンプト先頭に配置する
実運用への応用(Practical Applications)
Amazon Bedrockでの利用
GPT-5.5はAmazon Bedrock上で利用可能(限定プレビュー)であり、Bedrock Managed AgentsのFoundation Modelとして指定できる。Bedrock上のGPT-5.5は、AWSのエンタープライズセキュリティ(IAM、PrivateLink、GuardRails、CloudTrail)をそのまま適用できる。
コスト分析
GPT-5.5のAPI価格は入力$5/1Mトークン、出力$30/1Mトークンである(OpenAI公式、2026年4月時点)。
経費精算フロー(4ステップ、各ステップ平均入力500トークン・出力200トークン)の場合、1リクエストあたりのコストは以下のように推定される。
\[\text{Cost per request} = 4 \times \left( \frac{500}{10^6} \times 5 + \frac{200}{10^6} \times 30 \right) = 4 \times (0.0025 + 0.006) = 0.034 \text{ USD}\]月間1,000リクエストで約$34/月。reasoning.effort=lowを2ステップに適用しトークンを30%削減すると、推定$24/月程度に削減できる。ただし、キャッシュヒットによる入力トークンの50%割引は上記に含まれていない。
制約と注意事項
- GPT-5.5のBedrock対応は2026年5月時点で限定プレビューであり、利用にはAWSへの申請が必要
reasoning.effort=noneではtool useが不安定になるケースがOpenAI公式ガイドで言及されている。経費精算フローではlowを下限とすることが推奨される- per-tokenレイテンシはGPT-5.4と同等とされているが、Bedrock経由ではネットワークオーバーヘッドが加算される
学術研究との関連(Academic Connection)
- Reasoning Under Adaptive Budgets(arXiv 2503.10461):
reasoning.effortの理論的背景となる適応的推論予算制御のサーベイ。GPT-5.5の設計は「静的予算」カテゴリに分類される - s1: Simple Test-Time Scaling(arXiv 2502.01618): テスト時計算のスケーリング則。推論予算を増やすほど精度が向上するスケーリングカーブを実験的に示している
- ToolBench / ToolRL(arXiv 2502.10947): ツール呼び出しの精度向上手法。GPT-5.5のツール呼び出し改善の学術的背景
まとめと実践への示唆
GPT-5.5はreasoning.effortとtext.verbosityの2つのパラメータにより、推論深度と出力詳細度をAPIレベルで制御できる。OpenAIの公式情報によると、o3と比較して出力トークン22%削減、ツール呼び出し回数45%削減を実現しており、マルチステップのエージェントワークフローで複合的にトークン効率が改善される。Bedrock Managed Agents上でステップ別にreasoning.effortを使い分けることで、経費精算フローのようなマルチステップワークフローのレイテンシとコストを体系的に最適化できる。ただし、Bedrock対応は限定プレビューであり、GA後の安定性検証が必要である。
参考文献
- OpenAI Blog: https://openai.com/index/introducing-gpt-5-5/
- API Docs: https://developers.openai.com/api/docs/guides/latest-model
- GPT-5.5 Model Spec: https://developers.openai.com/api/docs/models/gpt-5.5
- Related Zenn article: https://zenn.dev/0h_n0/articles/aa5a729de60491