Codexにブログ記事を1本書かせると、いくらかかるか:Web検索・画像・Container・サービス階層を実測

下記の記事では、Codex処理の使用量として表示される入力トークン、キャッシュ入力、出力トークン、推論出力(reasoning tokens)から、API利用料の目安を計算する方法を整理した。

前回の式は、ざっくり言うと次のものだった。

費用 =
  非キャッシュ入力 × 入力単価
+ キャッシュ入力 × キャッシュ入力単価
+ 出力トークン × 出力単価

※ 推論出力(reasoning tokens)は出力トークンに含まれる

しかし、Web検索、画像入力、画像生成、画像編集、音声、Containerなどを使うと、通常のトークン料金とは「別枠」の料金が発生し、上記の式だけでは費用の算出には不十分であることが分かっていたので、今回は、それらの処理の単価表を単に眺める代わりに、私たちが実際にやりそうな作業を1つ題材にして、工程ごとの費用を積み上げてみることにした。

題材はこれである。

「Codexにブログ記事を1本書かせる」
(Web検索でネタを集め、本文を生成し、アイキャッチ画像を1枚作る)

この1本がいくらになるのか、実測値を貼り付けながら最後まで追いかけてみたい。

なお、本記事の内容は OpenAI API の従量課金の話であり、ChatGPT Plus / Pro や Codex のアプリ利用料金(サブスク料金)とは別の話である。また、料金は変わる可能性があり、この記事では実行時点の単価と、1 USD = 162円の概算で計算している。


Codexの処理にかかる費用を調べると、入出力トークン、キャッシュトークン、推論出力(reasoning tokens)があることが分かり、それらの単価から、1つの処理にかかった費用を算出しましたが、添付画像の通り、別料金が発生する場合があることも分かりました。どの程度の費用が発生するか、サンプル処理を行って費用の内訳を出せるように、まず、表の各種類のサンプル処理の実施要領(計画)を提案してください

以下の記事内容は上記質問をCodexに対して行い、計画の作成及びその計画に基づくサンプル処理を行なってもらって算出した金額を元にしたものである。
各サンプル処理の費用は、付録「実測データ一覧」として本記事に添付している。


(注)本記事の内容は正確性を保証するものではない。

(2026年6月30日 追記)YouTube動画を追加しました。 https://youtu.be/2-ahCi-NGL0

目次

今回の「記事1本」ワークフロー

題材にしたワークフローは、次の5工程である。
(補足) モデル費とは上記記事で紹介した計算式で算出できる基本的な費用である。

工程内容関係する費用
① ネタ集めWeb検索を複数回モデル費 + 検索ツール費
② 構成・下書きテキスト生成(標準)モデル費
③ 推敲・仕上げテキスト生成(標準)モデル費
④ アイキャッチ生成横長画像を1枚生成画像メディア費
⑤ 補足チェック軽いCSV集計などを Container でContainer費 + モデル費

このうち①〜③は「ふつうのテキスト処理」だが、④と⑤で別枠の料金が乗る。ここが前回の記事で紹介した式から漏れていた部分である。

各工程を、今回の実測値で順番に埋めていく。

ひとことメモ
④のアイキャッチや⑤のContainerは「やる人とやらない人がいる」工程である。自分のワークフローに無い工程は、その行ごと費用から外して読めばよい。記事を読みながら「自分はどの工程をやるか」をチェックしておくと、後半の合計が自分用の数字になる。


① ネタ集め:Web検索は「回数」で効く

Web検索は、通常のモデル使用料に加えて、検索ツールの呼び出し料金が別に乗る。

今回の単発測定では、Web検索1回 + 短い回答で約1.84円だった。
このうち検索ツール費だけで約1.62円である。つまり、出力が短くても検索回数が増えると費用が積み上がる。

記事1本のためにネタを集めるとなると、検索は1回では済まない。
仮に10回検索する構成にすると、検索ツール費だけで次のようになる。

項目単価の目安10回ぶん
検索ツール費約1.62円/回約16.2円
回答生成のモデル費(短文×10回相当)約0.22円/回約2.2円
①小計約18.4円

検索の「中身」ではなく「回数」で増えるのがポイントである。

ひとことメモ
個人ブログのネタ集めなら、Codexに何度も検索させるより、自分でブラウザで数件読んでから「この情報をもとに書いて」と渡す方が安く済むことが多い。
検索を10回から3回に減らすだけで、ここの費用は約半分以下になる。Web検索は便利だが、回数は意識して絞りたい。


② 構成・下書き:標準テキスト処理

ここは前回の記事で紹介した式そのままの世界である。
約4,600入力トークンを渡して短い分類結果を返す、という共通テキスト処理を Standard で実行したところ、約3.84円だった。

実際の下書きは出力がもっと長くなるので、ここでは構成出し+下書きで標準処理を2〜3回まわすイメージとして、概算で約10円前後を見ておく。

項目概算費用
②小計(標準処理×数回)約10円

ひとことメモ
ここで効くのがキャッシュ入力である。
同じ前提(ブログの方針、トーン、過去記事の要約など)を毎回渡すなら、その部分はキャッシュが効いて単価が下がる。
プロンプトの「変わらない部分」を先頭に固定しておくと、②の費用はじわじわ下がる。
前回記事のキャッシュの話が、ここで実益になる。


③ 推敲・仕上げ:ここでサービス階層を選ぶ

下書きを直す工程も標準テキスト処理だが、ここで Standard / Batch / Flex / Priority という「サービス階層」の選択が関係してくる。
同じ共通処理を4方式で比較した結果が次である。
(補足) デフォルトは「Standard」

方式今回の概算費用Standard比見方
Standard約3.84円1.00倍通常処理
Batch約1.92円約0.50倍非同期でよければ安い
Flex約0.33円約0.087倍今回はキャッシュが効いて非常に安かった
Priority約10.22円約2.66倍優先処理なので高い

注意したいのは、プロンプトに「Priorityで実行してください」と書くだけでは切り替わらない点である。
API呼び出し側で指定する必要がある。

service_tier="priority"   # Flexなら "flex"

Batchはさらに別で、通常リクエストに指定するのではなく、Batch APIにジョブとして投入する方式である。

仕上げ工程は標準のまま、約4円ほどを見ておく。

項目概算費用
③小計(Standard)約4円

ひとことメモ
個人ブログの記事生成に Priority は基本いらない
Priorityは「ユーザーを待たせたくない本番サービス」向けで、単価がStandardの2.6倍にもなる。
自分のブログを自分のペースで書くだけなら、StandardかFlexで十分である。
むしろ「急がないからFlexでいいや」くらいの気持ちで回すと、③の費用は何分の一かになる。


④ アイキャッチ生成:サイズと品質で数円単位に

画像関連は、画像入力・画像生成・画像編集で費用の考え方が少し違う。
今回の単発測定では次のとおりだった。

処理内容概算費用
画像入力512×512画像を短く解析約0.37〜0.38円
画像生成画像1枚生成約0.97円
画像編集生成画像を編集約2.30円

そして、この記事用に実際に作った横長アイキャッチがこちらの条件である。

項目内容
モデルgpt-image-2
サイズ1536×1024
品質medium
出力形式PNG
枚数1枚
概算費用$0.041975(約6.80円

低品質の小さな画像なら1円前後で済むこともあるが、ブログ用の横長アイキャッチのようにサイズと品質を上げると、数円程度になる。

項目概算費用
④小計(横長アイキャッチ1枚)約6.80円

ひとことメモ
アイキャッチは「生成」より「編集」のほうが高くなりやすい(元画像・マスク・出力画像が全部関係するため)。気に入らなくて何度も編集で直すより、プロンプトを練って一発生成を狙うほうが安い。サイズも、本当に1536×1024が要るのか一度見直す価値がある。記事の見栄えと費用のバランスを取りたいところ。


⑤ 補足チェック:Containerは「固定費」が乗る

記事内で簡単な集計表やグラフを出したいとき、Container(Code Interpreter)を使うことがある。
今回、1GB Containerで小さなCSV集計+グラフ生成を行ったところ、約7.27円だった。

問題は、このうち約4.86円がContainerセッション費だという点である。
処理そのものが軽くても、セッションを立てた時点でこの固定費が乗る。

項目概算費用
Containerセッション費(固定)約4.86円
集計・グラフ生成のモデル費など約2.41円
⑤小計約7.27円

ひとことメモ
Containerは「軽い処理でも固定費が乗る」のが曲者である。
記事1本のためだけに毎回立てるのはもったいない。
やるなら、その日にまとめたい集計を1セッションで片付けてしまうほうが効率がよい。
簡単な表計算くらいなら、わざわざContainerを使わず自分の手元(ExcelやNumbers)で済ませる選択肢も普通にアリである。


「記事1本」の合計を出してみる

ここまでの工程を積み上げると、フル装備(検索10回+アイキャッチ+Container)の場合は次のようになる。

工程内容概算費用
① ネタ集めWeb検索10回 + 短い回答約18.4円
② 構成・下書き標準処理×数回約10円
③ 推敲・仕上げ標準処理約4円
④ アイキャッチ横長画像1枚生成約6.80円
⑤ 補足チェックContainer集計約7.27円
合計約46円

記事1本あたり約46円。思ったより高いと感じるか、安いと感じるかは人それぞれだが、内訳を見ると「①Web検索」と「⑤Container」という別枠料金が、全体の半分以上を占めていることが分かる。

逆に言えば、ここを削れば一気に安くなる。


同じ記事を「節約モード」で書くと

では、追加料金が乗りやすい部分を意識して節約すると、どこまで下がるか。

工夫変更後
Web検索を10回→3回に絞る①が約18.4円→約6円
仕上げをFlexに③が約4円→1円未満
アイキャッチを小さめ・低品質で1枚④が約6.80円→約1円前後
Containerを使わず手元で集計⑤が約7.27円→0円

これらを全部適用すると、合計はおおよそ約18円前後まで下がる。フル装備の約46円と比べると、半額以下である。

つまり「記事1本いくらか」は固定ではなく、どの追加料金を使うかの設計しだいで2〜3倍変わる、というのが今回いちばん伝えたい点である。

ひとことメモ
全部を節約モードにする必要はない。「アイキャッチだけはきれいに出したい」なら④にお金をかけ、その代わり①の検索回数を削る、といったメリハリでいい。自分が記事の何にこだわるかで、お金をかける工程を選べばよい。


実装するなら:記録しておきたい項目

費用を後から振り返れるよう、各処理で次を記録しておくとよい。

(モデル費用)model
(サービス階層)service_tier
(入力トークン)input_tokens
(キャッシュトークン)cached_tokens
(出力トークン)output_tokens
(推論出力)reasoning_tokens

(以下、追加費用に関連する部分)
text/audio/image別トークン
web_search_call件数
container_id / memory_limit / セッション数
batchかどうか
エラー時にusageがあるか

そして費用計算は、前回の式に追加項を足した「完全版」で考える。

総額 =
  通常モデル費用            ← 前回の式
+ Web検索費                ← 検索回数 × 単価
+ 画像・音声などのメディア費  ← サイズ・品質・長さ
+ Container費              ← セッション固定費
(そのうえで Batch/Flex/Priority の単価に切り替える)

単価は変わる可能性があるので、コードに直接書き込むより設定ファイル化しておくほうがよい。

ひとことメモ
ここまで記録しておくと、Home Assistantのダッシュボードに「今月のCodex記事制作費」を出す、といった可視化にそのまま使える。通常トークンだけでなく、検索回数やContainerセッション数も保存しておくのがコツである。次回、この可視化の作り方を扱いたい。


まとめ

「Codexに記事を1本書かせるといくらか」を、工程ごとに積み上げてみた結果、分かったのは次のことだった。

  • フル装備(検索10回+アイキャッチ+Container)で約46円、節約モードで約18円前後
  • 差を生むのは、通常トークンではなく「Web検索」「画像」「Container」という別枠料金
  • Web検索は回数、画像はサイズ・品質、Containerはセッション固定費が効く
  • サービス階層は、個人ブログ用途ならPriorityは基本不要、急がないならFlexで十分
  • reasoning tokens は output tokens の内数なので、相変わらず二重加算しない

前回の記事が「基本の計算方法」だったのに対し、今回は「実際の作業に当てはめると、追加料金でいくら変わるか」を見た。

通常トークンだけ見ていると費用感を見誤る。
Web検索・画像・Container・サービス階層という4つの追加項目を意識するだけで、記事1本のコストは自分でコントロールできるようになる。

追加費用の目安について、おおよそ言及できたように思う。最初に、各処理のサンプル処理を行い、Web検索や画像生成などの単価を求めたが、それらのサンプル処理を一度に実施したので結構時間がかかり、トラブルも何度も発生した。また、5時間枠を2回リセットした。iPhoneのHOME AssistantのダッシュボードでCodexの5時間枠の使用パーセントをモニターしながら、80%程度に達した時点でリセットを行なった。5時間枠が3つたまっていたが、何に使おうかと考えていたところ、この記事のデータ作成に使用することができ時間を節約できた。

これまでに見たことがない下記のエラーメッセージが表示されることもあった。
Error running remote compact task: Selected model is at capacity. Please try a different model.
This model is not supported when using X-OpenAI-Internal-Codex-Responses-Lite.


付録:実測データ一覧

本文では「記事1本」のワークフローに沿って必要な数字だけを抜き出した。
ここでは、その元になった単発測定の全データを参考用にまとめておく。
本文に登場しなかった音声処理なども含む。

実測結果のまとめ(処理別)

成功した測定分の合計は $0.2178045(1 USD = 162円換算で約35.28円)だった。

処理内容概算費用
Standardテキスト処理約4,600入力トークン → 短い分類結果約3.84円
Batch同じ処理をBatchで実行約1.92円
Flex同じ処理。キャッシュが大きく効いた約0.33円
Priority同じ入力を優先処理約10.22円
Web検索Web検索1回 + 短い回答約1.84円
画像入力512×512画像を短く解析約0.37〜0.38円
画像生成画像1枚生成約0.97円
画像編集生成画像を編集約2.30円
Realtime音声会話5秒音声入力 + 短い音声回答約0.56円
音声文字起こし10秒音声約0.46円
音声翻訳10秒音声を英訳・音声生成約0.92円
Container1GB Containerで小CSV集計 + グラフ生成約7.27円

短い画像・音声処理は思ったより低額だった一方で、ContainerやPriorityは小さな処理でも目立つ金額になった。

費用区分別の内訳

費用の性質で分けると、次のようになる。

費用区分米ドル円換算
通常モデル費用$0.1456705約23.60円
Web検索ツール費$0.0100000約1.62円
画像・音声メディア費$0.0321340約5.21円
Container費$0.0300000約4.86円
合計$0.2178045約35.28円

通常モデル費用が最大だが、Container費も無視できない。小さなCSV処理でも約4.86円のセッション費が乗っている。

サービス階層の比較

方式概算費用Standard比見方
Standard約3.84円1.00倍通常処理
Batch約1.92円約0.50倍非同期でよければ安い
Flex約0.33円約0.087倍今回はキャッシュが効いて非常に安かった
Priority約10.22円約2.66倍優先処理なので高い

画像処理で効く因子

因子費用への影響
画像サイズ大きいほど高くなりやすい
detaillow より high / original の方が高くなりやすい
qualitylow < medium < high の順で高くなりやすい
出力枚数枚数に応じて増える
参照画像・編集元画像入力画像トークンとして関係する
ファイル形式費用より通信量・保存容量への影響が中心

音声処理で効く因子と実測値(本文外)

本文の「記事を書く」工程には登場しないが、音声を扱う場合の参考に残しておく。音声は長さにほぼ比例する。

因子費用への影響
入力音声の長さ長いほど増える
出力音声の長さ長く話させるほど増える
会話ターン数Realtimeでは履歴が増えやすい
無音区間入力に含めると課金対象になり得る
モデル文字起こし・翻訳・会話で単価が違う
ファイル形式費用よりファイルサイズ・転送時間への影響が中心
処理内容概算費用
Realtime音声会話約5秒の音声入力 + 短い音声回答約0.56円
音声文字起こし約10秒音声約0.46円
音声翻訳約10秒音声を英訳・音声生成約0.92円

10秒では安くても、10分・1時間となると差が大きくなる。
Realtime会話ではターン数が増えると履歴が次の入力に含まれ、費用が増える可能性がある。

高くなりやすい / 安くしやすい処理

高くなりやすいもの理由
Priority通常より高い優先処理単価になる
Container小さな処理でもセッション費が乗る
画像編集元画像・マスク・出力画像が関係する
Web検索を何度も使う処理検索回数ごとの費用が積み上がる
長い音声処理秒数・分数に比例しやすい
安くしやすいもの工夫
大量の非同期処理Batchを使う
急がない処理Flexを検討する
画像解析detail="low" から試す
画像生成小さめサイズ・低品質・1枚生成から試す
音声処理無音を削り、必要部分だけ処理する
Web検索検索回数を必要最小限にする

付録:Batch、Flex、Priorityについて

Batch / Flex / Priority は、プロンプト本文で指定するものではなく、APIの呼び出し方法・パラメータ・Project設定で決まるものです。

種類何かどう指定するか向いている処理向いていない処理課金・費用感注意点
Batch非同期のまとめ処理/v1/batches にJSONLファイルをアップロードしてBatchジョブを作る大量分類、評価、埋め込み作成、データ処理、夜間処理などすぐ返答が必要なチャット、対話処理同期APIより約50%安い完了は最大24時間枠。結果は後で取得する
Flex安いが遅め・不安定な同期処理APIリクエストで service_tier="flex"急がない単発処理、評価、データ整形、低優先度処理本番の即時応答、失敗できない処理Batch API rates相当。キャッシュも効くリソース不足時は 429 Resource Unavailable。その場合は課金なし
Priority速く安定させる優先処理APIリクエストで service_tier="priority"、またはProject設定ユーザー向け本番アプリ、低遅延が重要な処理大量バッチ、評価、ETL、不規則な大量処理Standardより高いPriority単価急激なトラフィック増加時はStandardへ降格される場合あり

プロンプトで指定すれば適用されるのか

基本的には いいえ です。

例えばユーザーがプロンプトに、

この処理をPriorityで実行してください

と書いても、それだけではAPIの service_tier は変わりません。

適用されるのは、API呼び出し側で明示的にこう指定した場合です。

client.responses.create(
    model="gpt-5.5",
    input="...",
    service_tier="priority"
)

またはFlexなら、

client.responses.create(
    model="gpt-5.5",
    input="...",
    service_tier="flex"
)

Batchはさらに別で、通常リクエストに service_tier="batch" と書く方式ではなく、Batch APIにジョブとして投入する方式です。

今回の測定結果に照らすと

同じ約4,600入力トークンの短い分類処理では、こうでした。

方式今回の概算費用Standard比解釈
Standard約3.84円1.00倍通常処理
Batch約1.92円約0.50倍ほぼ半額
Flex約0.33円約0.087倍Flex単価+キャッシュ効果で非常に安い
Priority約10.22円約2.66倍速さ・安定性優先で高い

Flexが極端に安く見えたのは、今回の測定では キャッシュ入力が大きく効いたためです。
常にこの比率になるとは限りません。

実務上の使い分け

目的選ぶ候補
安く大量に処理したい、結果は後でよいBatch
多少遅くても安くしたいFlex
ユーザーを待たせたくない、本番で低遅延が重要Priority
普通のAPI利用Standard / default

参照: Batch API, Flex processing, Priority processing


付録:画像関連の処理で費用に影響を与える因子

画像関連の費用は、大きく分けると 画像入力/解析画像生成/編集 で効く因子が違います。

ざっくり言うと、費用に強く効くのは「画像サイズ」「detail」「品質 quality」「出力枚数」「参照画像の数」です。
一方、PNG/JPEG/WebPなどのファイル形式や圧縮率は、主に通信量・保存容量・速度に効き、画像トークン費用そのものへの影響は限定的です。

費用に影響する因子

因子主に影響する処理費用への影響説明
画像の縦横サイズ画像入力、画像生成、画像編集画像入力ではトークン化時のパッチ数・タイル数に影響します。画像生成では出力画像が大きいほど出力トークンが増えます。
detail画像入力・Vision解析low は低コスト。highoriginal は細部を見るためトークンが増えやすいです。
モデル画像入力、画像生成、画像編集モデルごとに画像のリサイズ規則、トークン換算、単価が異なります。
画像枚数画像入力、参照画像つき生成/編集入力画像が増えると、基本的に画像入力トークンも増えます。
出力枚数 n画像生成1枚より2枚、2枚より4枚のほうが概ね比例的に増えます。
生成品質 quality画像生成・編集low < medium < high の順に、出力トークン・処理時間が増えやすいです。
出力サイズ size画像生成・編集1024×1024より、2K・4K系のほうが高くなります。
参照画像・編集元画像画像編集、参照画像つき生成編集では元画像・参照画像も入力画像として処理されるため、生成だけより高くなりやすいです。
input_fidelity画像編集・参照画像ワークフロー中〜大入力画像の細部をどれだけ保持するかに関係します。ただし gpt-image-2 では変更不可で、高忠実度処理が自動です。
テキストプロンプトの長さ画像生成・編集小〜中長い指示文はテキスト入力トークンとして加算されます。ただし画像出力費に比べると小さいことが多いです。
ファイル形式 PNG/JPEG/WebP/GIF画像入力、画像生成出力入力画像の課金は主にピクセル寸法・detail・モデルで決まります。形式そのものより、対応可否や通信量に効きます。
JPEG/WebP圧縮率画像生成出力主にファイルサイズ・転送時間に影響します。モデルの画像生成トークン費用を直接大きく下げるものではありません。
マスク画像画像編集マスクは編集対象範囲を指定します。マスク自体の形式・サイズ要件を満たす必要があります。

処理別に見ると

処理費用を決める主因安くする方向
画像入力・画像解析画像サイズ、detail、モデル、画像枚数detail="low"、不要な余白を切る、画像枚数を減らす
高精度な画像理解detail="high" / original、画像サイズ必要な時だけhigh/originalにする
画像生成出力サイズ、quality、出力枚数、モデルquality="low"、小さめサイズ、1枚生成から始める
画像編集元画像サイズ、参照画像数、quality、出力サイズ編集元を必要範囲に絞る、参照画像を減らす
マスク編集元画像とマスクのサイズ・形式、出力条件マスクと元画像のサイズを合わせる。不要に大きい画像を避ける

ファイル形式の扱い

形式入力対応費用面の見方
PNG対応画質劣化が少ないがファイルサイズは大きめ。費用は主に寸法/detailで決まります。
JPEG / JPG対応写真向き。ファイルサイズを小さくしやすい。通信・保存には有利。
WEBP対応圧縮効率がよい。通信量削減に有利。
非アニメーションGIF対応入力可。ただし通常はPNG/JPEG/WebPのほうが扱いやすいです。
アニメーションGIF基本的に対象外静止画像として扱う前提にしたほうが安全です。

実務上のおすすめ

目的推奨設定
ざっくり何が写っているか知りたいdetail="low"
文字・細部・位置関係を読みたいdetail="high" または original
UI画面、クリック位置、細かいレイアウトを見たいoriginal 寄り
画像生成のラフ案をたくさん試したいquality="low"、小さめサイズ、1枚ずつ
最終成果物を作りたいquality="medium" または high
費用を抑えたい小さいサイズ、低detail、低quality、少ない枚数

今回の測定でも、画像入力解析は約0.4円、画像生成1枚は約1円、画像編集は約2.3円と、編集は参照画像・入力画像を含むぶん生成より高くなりやすい傾向が出ていました。

参照: Images and vision, Image generation


付録:音声関連の処理で費用に影響を与える因子

音声関連は、処理方式ごとに課金軸が違います。まず大枠はこうです。

処理主な課金軸
Realtime音声会話入力音声トークン、出力音声トークン、テキストトークン
Realtime文字起こし音声時間ベース、または文字起こし用usage
Realtime音声翻訳音声時間ベース
ファイル文字起こし音声ファイルの長さ、モデル、追加機能
Text to Speech入力テキスト量、生成される音声量、モデル
音声つき会話履歴会話履歴・キャッシュ・ターン数

費用に影響する因子

因子影響する処理費用への影響説明
入力音声の長さ音声会話、文字起こし、翻訳長いほど入力音声トークン、または課金対象秒数/分数が増えます。
出力音声の長さ音声会話、TTS、音声翻訳長く話させるほど出力音声トークンや生成音声量が増えます。
会話ターン数Realtime音声会話Realtime会話では会話履歴が次ターンの入力に入るため、後半のターンほど高くなりやすいです。
無音区間Realtime音声会話、文字起こし中〜大VADが有効なら無音は除外されやすいですが、手動で無音音声を入力に追加すると課金対象になり得ます。
モデル全音声処理gpt-realtime-2gpt-realtime-whispergpt-realtime-translategpt-4o-transcribegpt-4o-mini-transcribegpt-4o-mini-tts などで単価が違います。
出力品質モデルTTStts-1 は低遅延寄り、tts-1-hd は高品質寄りです。高品質モデルは一般に高くなりやすいです。
音声速度TTS、音声会話ゆっくり話す指示にすると出力秒数が伸び、費用が増える可能性があります。
声・voiceTTS、Realtime音声出力小〜中voice自体で大きく費用が変わるというより、話し方・速度・出力時間に影響する場合があります。
入力ファイル形式ファイル文字起こしmp3, mp4, mpeg, mpga, m4a, wav, webm が対応形式です。形式そのものより、音声長とモデルが費用に効きます。
出力ファイル形式TTSmp3, opus, aac, flac, wav, pcm など。API費用より、ファイルサイズ・再生遅延・保存容量に効きます。
サンプリングレート/ビットレート主に入出力ファイル小〜中同じ発話時間なら課金への直接影響は限定的ですが、ファイルサイズ、25MB制限、転送時間に効きます。
ステレオ/モノラル主に入力ファイル小〜中ステレオはファイルサイズが増えます。認識用途ならモノラルで十分なことが多いです。
文字起こしの詳細度ファイル文字起こしverbose_json、単語タイムスタンプ、話者分離などは処理が重くなる・対応モデルが限られる場合があります。
話者分離文字起こし中〜大gpt-4o-transcribe-diarize など専用モデル・追加設定が必要です。
キャッシュRealtime音声会話会話履歴がキャッシュされると入力コストを下げられる場合があります。ただし保証ではありません。
入力テキスト量TTS読み上げる文章が長いほど生成音声も長くなり、費用が増えます。
指示文 instructionsTTS小〜中指示文自体の入力量に加え、話し方が長くなると出力音声も増えます。

形式ごとの見方

形式主な用途費用面の見方
MP3入力・TTS出力圧縮率が高く汎用。費用より通信量削減に有利。
WAV入力・TTS出力非圧縮で大きいが、低遅延・処理しやすい。ファイルサイズ制限に注意。
PCMRealtime / 低遅延出力ヘッダなしの生音声。低遅延向きだが扱いはやや実装寄り。
OpusTTS出力ストリーミング・通信向き。低遅延用途に向く。
AACTTS出力モバイル・動画系との相性がよい。
FLACTTS出力可逆圧縮。保存品質重視。
M4A / MP4 / WebM入力文字起こしファイル文字起こしで対応。圧縮で25MB制限に収めやすい。

実務上の節約ポイント

目的推奨
文字起こしを安くしたい無音を削る、必要部分だけ切り出す、圧縮形式で25MB以内にする
Realtime音声会話を安くしたいVADを使う、短く答えさせる、会話履歴を長くしすぎない
TTSを安くしたい読み上げ文を短くする、話速を遅くしすぎない、必要な音声だけ生成する
低遅延にしたいRealtimeならWebRTC/PCM系、TTS出力なら wav / pcm を検討
ファイルサイズを抑えたいMP3 / Opus / AAC / WebM を使う
高品質保存したいWAV / FLAC を使う。ただしファイルサイズは大きい

今回の測定結果との対応

今回のサンプルでは、

処理内容概算
Realtime音声会話約5秒入力+短い音声回答約0.56円
音声文字起こし約10秒音声約0.46円
音声翻訳約10秒音声を英訳・音声生成約0.92円

短い音声ではかなり低額でしたが、音声処理は基本的に 秒数・分数に素直に比例しやすいです。
1分、10分、1時間と伸びると、そのまま差が大きくなります。

参照: Realtime costs, Speech to text, Text to speech, Realtime and audio


参考リンク

目次