GPT-5-CodexとGPT-5の使い分け

Codex CLIが4.0にバージョンアップしたそうなのでいくつか質問してみた。
また、GPT-5-CodexとGPT-5の使い分けについても確認した。

追記)本記事公開してそれほど時間が経過していないに、Codex CLIのバージョンがv0.41.0(2025-09-24)になったそうなので、本記事の最後に変更点を追記した。

(注)本記事の内容は正確性を保証するものではない。

Codex CLIが4.0にバージョンアップしたそうです。内容を教えてください

GPT 5 Thinking の回答

了解しました。最新の「Codex CLI 4.0(v0.40.0)」の更新点を要約します。

何が変わった?(v0.40.0)

  • デフォルトモデルが GPT-5-Codex に従来の設定不要で標準採用)。(GitHub)
  • 自動コンパクション:セッションが 220kトークン に達すると自動で要約・圧縮して継続できるように。(GitHub)
  • /status で使用量(リミット)が見える化:現在の利用制限や残量が CLI 上で確認可能に。(GitHub)
  • /review コマンド追加強化
    • 特定コミットのレビュー
    • ベースブランチとの比較レビュー
    • カスタム指示付きレビュー
      などがサポート。(GitHub)
  • MCP(Model Context Protocol)周り
    ツール呼び出しのデフォルトタイムアウトは 60秒
    config.toml の各サーバーごとに tool_timeout_sec で上書き可能。(GitHub)
  • モデル周辺の最新動向:GPT-5-Codex 自体が CLI と IDE で利用可能(ChatGPTアカウントでサインイン可)。
    9/23付で Responses API からも利用可能になった旨が公式ドキュメントに追記。(OpenAI Developers)

参考:Codex CLI の概要・ドキュメント

  • 公式 CLI 概要/セットアップ(macOS・Linux、WindowsはWSL推奨)。(OpenAI Developers)
  • 公式リリースノート(v0.40.0=「4.0」相当)。(GitHub)
  • Codex 全体の変更履歴(GPT-5-Codex 公開や「resume」「自動要約」等の流れ)。(OpenAI Developers)
  • リポジトリ README(インストール方法やMCP設定先)。(GitHub)

アップデート方法(例)

  • npmnpm i -g @openai/codex
  • Homebrewbrew upgrade codex(未導入なら brew install codex

    いずれも公式READMEの手順に準拠しています。(GitHub)

反映確認

  • バージョン確認:codex --version
  • モデル確認:/status を実行(セッション内で status 入力、またはコマンドパレットから)→ 使用モデルが gpt-5-codex になっているか、使用量が表示されるかを確認。(GitHub)

必要であれば、~/.codex/config.toml の例(mcp_servers 設定や tool_timeout_sec の指定)も用意します。

/review コマンド追加強化の内容を具体例で教えてください

GPT 5 Thinking の回答

了解です。v0.40.0(通称「4.0」)で強化された /review の使い方を、よくある3パターンの具体例でまとめます。

1) 「特定コミット」をレビューする

目的:あるコミットだけを重点的にチェックしたいとき。
やり方(例)

/review
→ 「commit を指定」モードを選ぶ
→ 例: 3f2a1c7 を入力して実行

結果:そのコミットに含まれる差分に対して、バグの可能性、設計・パフォーマンス・可読性・テスト不足などの指摘をまとめてくれます。
※「特定コミットのレビュー」対応は 0.40.0 の新機能としてリリースノートに明記されています。(GitHub)

2) 「ブランチ差分(ベースブランチ指定)」でレビューする

目的:現在作業中のブランチ全体を、maindevelop などのベースブランチと比較してレビューしたいとき。
やり方(例)

/review
→ 「ベースブランチを指定して比較」モードを選ぶ
→ base: main(または develop)を指定して実行

結果git diff main...<current-branch> 相当の差分を俯瞰し、広範囲の変更でも要点を優先度付きでレビューします。
※「ベースブランチとの比較レビュー」対応も 0.40.0 の新機能として告知されています。(GitHub)

3) 「カスタム指示」を添えてレビューする

目的:セキュリティ・パフォーマンス・境界値・テスト観点など特定の観点に絞ってレビューしてほしいとき。
やり方(例)

/review
→ 「カスタム指示つき」モードを選ぶ
→ 指示の例:
   - セキュリティ最優先で、SQLインジェクション/XXE/コマンド実行を重点確認
   - パフォーマンス観点で N+1 と O(n^2) を重点チェック。必要ならベンチを提案
   - 追加すべきユニットテストの具体名とテストケースを列挙

結果:指定した観点に沿ってコメントが整理され、必要に応じてテストの追加案や修正方針も提示されます。

※「カスタム指示付きレビュー」も 0.40.0 の追加項目です。レビュー品質自体は GPT-5-Codex が担い、同モデルはコードレビューに最適化されています。(GitHub)

実行時の注意

  • モデル要件:/review は GPT-5-Codex が前提です(他モデルだと失敗報告あり)。
    v0.40.0ではデフォルトモデルが gpt-5-codex に変更されています。(GitHub)
  • デフォルト動作:コミットやベースブランチを指定しない /review は、現在の変更(ワーキングツリー差分)のレビューを開始します。実行ログ例として「Code review started: current changes」が観測されています。(GitHub)
  • GitHub 連携との違い:CLI の /review はローカル/手元の差分をレビュー。GitHub の PR で @codex review とコメントして走るクラウド側の Code Review とは別経路ですが、目的は同じです(PR上の自動レビューを使いたいならこちら)。(OpenAI Developers)

すぐ使える小レシピ

  • 「このコミットだけ」:/review → commit指定 → <SHA>(設計・バグ指摘に集中)(GitHub)
  • 「このブランチ全体 vs main」:/review → ベース=main を指定(大規模差分の要点抽出)(GitHub)
  • 「観点しばり」:/review → カスタム指示(セキュリティ/性能/テストなどを明示)(GitHub)

必要であれば、あなたのリポジトリ構成(テストコマンドやリンタ、AGENTS.md など)に合わせた カスタム指示テンプレ も作ります。

~/.codex/config.toml の例(mcp_servers 設定や tool_timeout_sec の指定)も教えてください

GPT 5 Thinking の回答

了解です。~/.codex/config.tomlサンプルを2パターン用意しました。
どちらも MCPサーバー定義mcp_servers.*)と ツールのタイムアウトtool_timeout_sec)を含みます。必要なところだけコピペして使ってください。

① 最小構成(Filesystem だけ)

# ~/.codex/config.toml

# グローバル既定(必要に応じて)
model = "gpt-5-codex"
tool_timeout_sec = 60  # すべてのMCPツールのデフォルトタイムアウト(秒)

# ---- MCP servers ----
[mcp_servers.filesystem]
command = "npx"
# 公式の Filesystem MCP サーバーを npx で起動
args = ["-y", "@modelcontextprotocol/server-filesystem",
        "--root", "/Users/you/work",   # ルートディレクトリ
        "--allow", "/Users/you/work"]  # 参照/操作を許可するパス(複数可)
# このサーバー配下のツールにだけ個別タイムアウト(秒)を上書き
tool_timeout_sec = 120

ポイント

  • tool_timeout_sec全体(上部)とサーバー単位(各 [mcp_servers.*] セクション)で指定できます。
    サーバー側の値が優先。
  • --root--allow をあなたの作業フォルダに合わせて変更してください(例:/Users/yourname/dev)。

② 実用構成(Filesystem + Process + OpenAPI)

# ~/.codex/config.toml

# 好みで
model = "gpt-5-codex"
tool_timeout_sec = 60           # 既定値
max_context_tokens = 220000     # 大きめセッション運用時の目安(任意)
auto_compaction = true          # 長会話での自動要約を有効化(任意)

# ---- MCP: Filesystem(ローカルファイルの読み書き/列挙)----
[mcp_servers.filesystem]
command = "npx"
args = ["-y", "@modelcontextprotocol/server-filesystem",
        "--root", "/Users/you/work",
        "--allow", "/Users/you/work",
        "--allow", "/Users/you/Projects/blog"]  # 複数ディレクトリを許可
tool_timeout_sec = 120

# ---- MCP: Process(ローカルでコマンド実行、lint/format/test等に便利)----
[mcp_servers.process]
command = "npx"
args = ["-y", "@modelcontextprotocol/server-process",
        "--cwd", "/Users/you/work"]      # 既定の作業ディレクトリ
# ビルド/テストのような重い処理向けに長め
tool_timeout_sec = 300
# 必要なら環境変数を付与
env = { NODE_OPTIONS="--max-old-space-size=4096" }

# ---- MCP: OpenAPI(任意のAPI仕様を読み込んでAPI呼び出し用ツール化)----
[mcp_servers.openapi]
command = "npx"
args = ["-y", "@modelcontextprotocol/server-openapi",
        "--spec", "/Users/you/apis/my-service-openapi.yaml",
        "--base-url", "https://api.example.com"]
tool_timeout_sec = 90
# 認証トークンなど
env = { API_TOKEN = "env:API_TOKEN" }    # ← 実際の値はシェル環境変数で渡すのが安全

補足

  • env = { KEY = "value" } でサーバー起動時の環境変数を渡せます。
    秘密値は env:NAME のようにして、実体はシェル側にエクスポートしておくと安全です。
  • server-processnpm testpytesteslintprettier など
    ローカルコマンドの実行ツールを提供します。レビューや修正の自動検証と相性が良いです。
  • server-openapi は OpenAPI 仕様からAPI呼び出しツールを生やします。
    ブログのCMSや自作RESTを直接たたくワークフローに便利。

よくあるつまずき対策

  • npx の初回実行が遅い-y を付けて無人実行。
    必要に応じてグローバルに入れるか、corepack/pnpm dlx などで高速化。
  • 権限エラー–allow のパス漏れが原因。読むだけでもそのパスを allow に追加が必要です。
  • タイムアウト → 重いLSPやビルドを回す場合は、対象サーバーの tool_timeout_sec を個別に延ばす。

必要なら、あなたの作業ディレクトリ構成に合わせて、最適化した config.toml を作ってお渡しします。
パスと使いたいツール(lint/test/ビルド/API)を教えてください。

デフォルトモデルが GPT-5-Codexということですが、GPT-5を使うことはできますか。できるのなら、あえてGPT-5を使ったほうがよいという場合はどのような場合ですか。下記の点でも、GPT-5-CodexとGPT-5に違いがあれば教えてください。

・費用面
・コーディング以外の分野での優位性
・計算時間
・任せられる度合い

GPT 5 Thinking の回答

はい、GPT-5 を使えます。Codex CLI では /model コマンドや起動フラグでモデルを切り替えできます。
(例:codex --model gpt-5)。(OpenAI Developers)

いつ GPT-5 を選ぶ?

  • コーディング以外の重めの思考・要約・企画
    研究リサーチ、長文ライティング、複数分野が絡む意思決定など“汎用の推論力”が要るときは GPT-5 が第一候補。
    400k相当の広いウィンドウと汎用ガイドが用意されています。(OpenAI Platform)
  • 「Codex の外」でも通じる一貫した挙動にしたい
    同じプロンプトで Web/Responses API/他ツールへ横展開したいときは GPT-5 を土台にするのが無難です。(OpenAI Platform)

いつ GPT-5-Codex を選ぶ?

  • コード中心の仕事(生成・改修・大規模リファクタ・レビュー)
    Codex 用に最適化された GPT-5 亜種で、エージェント的な自律作業やレビューが強化されています。
    CLI/IDE での“実務エンジニアリング”に合わせて調整されています。(OpenAI)
  • 効率(トークン・スピード)を重視
    Codex 向け開発者メッセージは GPT-5 用より約40%軽量で、同条件なら入出力トークン量や待ち時間を抑えやすいです。(OpenAI Cookbook)

主要観点の違い(ざっくり比較)

観点GPT-5-CodexGPT-5
費用面価格は GPT-5 と同一レンジ(Responses API でも同料金帯)。

コード用途で軽量プロンプトになりやすく、実コストは下がりがち。(OpenAI Developers)
公式価格:入力 $1.25 / 100万tok、出力 $10 / 100万tok(目安)。

汎用なのでプロンプトが重くなりやすいケースも。(OpenAI)
コーディング以外の優位性コード以外は“十分に強い”が、設計ドキュメントや市場調査など非コード特化では GPT-5 に一歩譲る場面あり。(OpenAI)汎用推論・長文・多分野横断は得意。リサーチ、要約、企画、方針決定など広い応用に最適。(OpenAI Platform)
計算時間(体感)コード作業での実効レイテンシは短くなりやすい
(開発者プロンプトが軽い/手戻り少なめ)。(OpenAI Cookbook)
モードによって思考時間を伸縮(ChatGPT 側では思考時間トグル有)。

深く考えさせると時間は伸びる。(TechRadar)
任せられる度合い(エージェント性)“エージェント的コーディング”に最適化。レビュー/テスト/修正の反復や長尺の実装を任せやすい。(OpenAI)領域横断の計画〜文章化〜根拠整理を任せやすい。

非コードの意思決定や説明責任が必要な場面で強い。(OpenAI Platform)

補足:Codex CLI は 既定モデルを切替可能。最近のリリースでは gpt-5-codex が既定という案内もありますが、運用上は /model gpt-5--model gpt-5 で明示が確実です。(GitHub)

実用ガイド(最短手順)

  • 一時的に GPT-5 に切り替え:CLI で /model gpt-5(または codex --model gpt-5)。(OpenAI Developers)
  • 使い分けの目安
    • コード生成・レビュー・大規模改修:まず GPT-5-Codex詰まったら観点を絞る指示(セキュリティ/性能/境界値…)。(OpenAI)
    • 非コード(要約/企画/調査/長文)GPT-5 に切替。途中でコードが必要になったら一時的に Codex へ。(OpenAI Platform)

もし、あなたの具体的なワークロード(例:WordPress 記事のリサーチ→原稿→図表→補助スクリプト)を教えていただければ、各工程での最適モデル切替プリセット(/model スニペット、推奨プロンプト、コスト目安)をその場で作成します。

GPT-5-Codexには、長尺の実装を任せやすいとのことですが、何時間も処理していたと聞いたことがあります。これは、タイムアウト設定が数十秒から数百秒の処理を何度も繰り返し実行しているということですか。
それとも、タイムアウトを設定しないと、1つの処理を何時間も処理するということですか。また、何時間も処理した場合、高額な費用がかかるのではないですか。

GPT 5 Thinking の回答

結論から言うと:

  • 「何時間も処理」=1回のLLM呼び出しが何時間も走るわけではありません。
    実態は、短めの推論+(必要なら)MCPツール実行多数回ループさせて長い作業を進める、という挙動です。
    各ツール呼び出しにはデフォルトのタイムアウト60秒があり、~/.codex/config.toml の各サーバーで tool_timeout_sec を上書きできます。(GitHub)
  • 費用は「経過時間」ではなくトークン量で課金されます。長時間に見えても、コストは入出力トークンの合計に比例します(GPT-5 系のAPI価格は公開のとおり)。(OpenAI)
  • セッションが長くなると、約22万トークン付近で自動コンパクション(要約圧縮)が走り、文脈を保ったまま続行できる設計です(v0.40.0系の既定)。(GitHub)

よくある誤解を分解

Q1.「タイムアウトを設定しないと、1つの処理が何時間も回るのか?」

  • いいえ。モデル応答(推論)にはサーバ側の制約があり、単発で“何時間”は想定されていません
    時間がかかるのは、計画→実行→評価→次の計画…という反復を重ねるからです。
  • 外部実行(lint/テスト/ビルド等)はMCPツール呼び出しで行い、各呼び出しが60秒(既定)
    必要に応じて個別サーバーごとに延長します。(GitHub)

Q2.「“何時間も処理”=危険なほど高額になるのでは?」

  • コストはトークン課金なので、「放置=即高額」ではありません。ただし長時間=反復回数が増えがち → トークンも増えやすいのは事実です。
  • 目安の公開価格(例:GPT-5で入力$1.25/100万tok、出力$10/100万tok)を踏まえ、
    要約・差分型のやり取りレビュー観点の絞り込み無駄トークンを抑制するのが定石です。(OpenAI)

実践的な“コストと時間”コントロール術

  1. ツールのタイムアウトを明示
    tool_timeout_sec用途別に
  • server-process(ビルド/テスト)だけ180–300秒
  • server-filesystem60–120秒など。
    (既定は60秒、サーバー単位で上書き可能)(GitHub)
  1. セッション肥大対策
  • セッションが膨らむと約220kトークンで自動圧縮が入る前提で、区切りの良いところで要約・/export保存→タスクを分割。(GitHub)
  1. レビュー観点の明確化
  • 「/review(セキュリティだけ/性能だけ/このコミットだけ/このブランチvs mainだけ)」のように対象と観点を絞ると、差分ベースで入出力が減るためコストと時間を抑制可能。(GitHub)
  1. モデルの使い分け
  • 重い企画・要約フェーズは GPT-5コード改修の反復は GPT-5-Codex切替して、不要な“思考の深掘り”や冗長なコード提案を避ける。
    価格レンジは公開情報に基づき、ミニ系(GPT-5 mini等)も適宜活用。(OpenAI)
  1. 大きな処理は“段階承認”に
  • いきなり全自動で任せず、ステップ毎に確認→次への運用にすると無駄トークンの連鎖を抑えやすい。
    (CLIには使用量の可視化 /status もあります)。(GitHub)

まとめ

  • 「何時間も回る」は多数回の短い呼び出しの積み重ねであり、各ツール呼び出しにはタイムアウト(既定60秒)があります。(GitHub)
  • 課金は時間ではなくトークン量。長時間=高額ではなく、やり取りの密度(トークン節約設計)次第で十分に抑制可能です。(OpenAI)
  • 自動コンパクション(~220k tok)が長対話の継続性を担保しますが、重要コンテキストは適宜スナップショット保存&分割がおすすめです。(GitHub)

必要であれば、あなたのプロジェクト構成(ビルド時間・テスト時間)に合わせたconfig.toml 最適値(tool_timeout_secやMCPサーバー構成)と、トークン節約用のプロンプト雛形を作ってお渡しします。

GPT-5 に具体的な実行案を提示し、分割実行、観点等を絞った実行について意見を聞いてみる価値はありそうだ。

Codex CLIのv0.41の内容を探してください

GPT 5 Thinking の回答

了解です。Codex CLI v0.41.0(2025-09-24)の変更点を要点だけ日本語でまとめます。

ハイライト

  • 利用制限(Rate limits)の見える化強化
    /status などでリセット時刻レート制限時の自分の使用量が確認できるように。(GitHub)
  • exec モードで出力スキーマ指定
    --output-schemaoutput-schema)で、実行結果を期待するJSON構造に合わせて出させやすく。
    データ抽出やCI連携が安定します。(GitHub)
  • ripgrep (rg) を npm リリースに同梱
    これにより @vscode/ripgreppostinstall 失敗で npm i -g @openai/codex がコケる問題の多くを回避。(GitHub)

そのほか主要マージ(抜粋)

  • Readiness ツール追加起動/環境の健全性チェック系)(GitHub)
  • 自動コンパクションの閾値を調整250k → 350kトークンへ段階的に更新するPRが入り、長対話の継続性が改善)(GitHub)
  • /status limits 表示を統合(旧 /limits は廃止方向)(GitHub)
  • /review のブランチモード・プロンプト修正(分岐時の挙動/文言の整合)(GitHub)
  • Git “undo” 用ツール群の追加、カードレイアウトなどのUI微修正、Rust 1.90 への更新、依存アップデート等。(GitHub)

使いどころの具体例

  • Rate limits可視化:レート制限に当たった際に残量と回復時刻が分かるので、長尺の実装レビュー一括実行の計画が立てやすい。(GitHub)
  • --output-schema/exec でツール出力を {"tests_passed": boolean, "coverage": number} のように構造化取得→ ダッシュボードやCIの自動判定に直結。(GitHub)
  • rg 同梱:CIや新規マシンでのnpmグローバル導入の失敗率低下。(GitHub)

アップデート手順

  • npm:npm i -g @openai/codex
  • Homebrew:brew upgrade codex(未導入は brew install codex
    公式READMEでも案内があります。(GitHub)

必要なら、--output-schema の実用テンプレテスト結果、Lint要約、依存脆弱性一覧など)をあなたのプロジェクト構成に合わせて用意します。

短時間の間に結構仕様が変わっている。数日前の情報を知る前に次の情報が来ているから問題なし?
v0.40.0の自動コンパクションの閾値やstatusコマンドの仕様は、v0.41.0によって上書きされてしまったが、v0.40.0の時点で変更点を調査しておいたことによって、GPT-5-Codexによる場合の方がGPT-5 による場合より約40%軽量になる可能性がある点やtimeout_secが設定できる点が分かったので、こまめに変更内容を確認しておくことは有用かもしれない。

目次