GPT-5やClaudeなどのAIを組み合わせて使う場合

下記の記事では、複数のAIエージェントを利用するシステムについて調査を行ったが、本記事では、概略ではあるが、GPT-5やClaudeなどのAIを組み合わせて使う場合についてGPT-5に意見を聞いた。
(注)本記事の内容は正確性を保証するものではない。

商品開発部の責任者として、商品開発の各ステップについて、複数のAIに作業を依頼できるとします。どのステップをどのAIに任せたいですか。 AIは、GPT-5、Gemini 2.5 Pro、Claude 3.5、Perplexity Proであるとします。

GPT-5 の回答

最高責任者目線で、プロダクト開発を12ステップに分解し、GPT-5 / Gemini 2.5 Pro / Claude 3.5 / Perplexity Proの“主担当(Lead)/副担当(Support)”を割り当てました。
要点は「得意分野に役割集中」「出力フォーマットを固定(JSON/表)」「審判LLMで最終チェック」です。

配置マップ(要約)

ステップLeadSupport任せる理由(要点)
0. 目標・制約の整理(PRDドラフト)GPT-5Claude高度な推論と仕様の矛盾検出に強い。Claudeで表現の明確化OpenAI
1. 外部調査(市場/競合/規制)Perplexity ProGPT-5常時ウェブ検索+引用で一次情報を素早く集約GPT-5で要点抽出と示唆整理Perplexity AI
BytePlus
2. 顧客インサイト要約(N=多)GPT-5Claude大量テキストのクラスタリング/要因分解→構造化。Claudeで要約の読みやすさを担保OpenAI
3. アイデア創出/発散ClaudeGPT-5多視点の発想と論点整理が得意。GPT-5で評価軸に沿ったスクリーニングAnthropic
Anthropic
4. コンセプト比較・選定GPT-5(審判)Claude/Perplexity複数案を評価指標でスコアリング。必要に応じPerplexityで根拠補強OpenAI
Perplexity AI
5. 技術調査・実装可否Gemini 2.5 ProGPT-5CLI/VS Code連携でリポジトリ横断の調査/実験が速い。GPT-5で設計の妥当性チェック
Google Developers Blog
blog.google
6. 試作(コード/スクリプト)GPT-5GeminiGPT-5は最新ベンチで強力なコーディング性能Geminiは差分適用やローカル実験が得意OpenAI
Google Developers Blog
7. 品質保証(テスト生成/修復)GPT-5Claude失敗テスト→最小修正→再実行のループを自動化Claudeで仕様逸脱の文章チェックOpenAI
8. セキュリティ/法令/同意対応Perplexity ProClaude規制・ガイドラインを出典付きで収集Claudeでポリシー文案に整形Perplexity AI
9. UXコピー/ヘルプ/ドキュメントClaudeGPT-5明晰な長文/ガイド記述が安定GPT-5でトーン統一・多言語展開Anthropic
10. ローンチ計画(GTM/価格/FAQ)GPT-5Perplexity価格感/競合比較はPerplexityの最新情報GPT-5で戦略化とFAQ自動生成Perplexity AI
11. 運用分析→次期計画GPT-5Gemini/Perplexityログ解析・A/Bの因果推論。必要に応じてGeminiでローカル検証Perplexityで外部ベンチ比較Google Developers Blog

根拠要約:
GPT-5は推論/コーディング性能・“協働”設計が強化され、難題の分解とコード修正が得意。
Gemini 2.5 ProはCLI/VS Code連携やツール実行が強く、リポジトリ操作・差分適用に向く。
Claude 3.5は論点整理や読みやすい長文・仕様記述に強い。
Perplexity Pro最新のウェブ情報を引用付きで高速収集でき、一次情報の下支えに最適。
OpenAI Google Developers Blog Anthropic Anthropic Perplexity AI

すぐ使える運用ルール(最小セット)

  • 出力I/Oを固定:各ステップの成果はJSONテンプレで(例:{hypotheses:[], risks:[], next_actions:[]})。→後工程AIが読みやすく、審判(Judge)もしやすい。
  • “選ぶ or まとめる”の審判重要な節目(4, 6, 10)はGPT-5をJudgeにし、候補文書(Claude/GPT/Geminiの3案)を匿名・順序ランダムで評価選択統合のいずれかを指示。
  • 調査はPerplexity必須:外部要素を含むタスクではPerplexityで根拠URLを取得→他AIの生成に添付してハルシネーション抑止Perplexity AI
  • コード変更は2段承認:生成→GeminiのネイティブDiffで可視化GPT-5がテストを自動追加/更新Google Developers BlogOpenAI

例:プロンプト断片(抜粋)

  • Perplexity(市場/規制)
    > 「日本/EEAの○○規制の一次情報を最新日付順に3件、要点100字+URLで。相反点は併記」 Perplexity AI
  • Gemini(技術検証)
    > 「このリポジトリでfeature-xのPoCを最短実装。差分だけ提案→VS Codeで適用→npm test実行」 Google Developers Blog
  • Claude(ドキュメント)
    > 「PRDの曖昧表現を列挙し、測定可能なKPI表へ正規化。語尾統一・不明確語の代替案付き」 Anthropic
  • GPT-5(Judge)
    > 「評価基準(正確性40/実行可能性30/リスク明示20/簡潔性10)でA/B/Cを採点。勝者と統合案をJSONで」

補足

主担当(Lead)/副担当(Support)を、どのような根拠で割り当てたかについて、さらに質問した。

配置マップ(要約)で、主担当(Lead)/副担当(Support)を割り当ててもらいました。任せる理由(要点)を確認すると、主担当(Lead)と副担当(Support)の補完関係などを考慮して割り当てられたと思いますが、どのような点を考慮しましたか。考慮した点を全て挙げてください。

GPT-5 の回答

了解です。前回の「Lead/Support」割り当てで私が系統立てて考慮した軸を、重複なく整理してすべて挙げます。

1) タスク特性(課題そのものの性質)

  • 探索 vs 収束(発散アイデア出し/要件の確定・矛盾検出
  • 事実依存度最新の外部情報・規制・相場が必要か
  • 実行可能性検証の要否(コード実行・差分適用・テスト運転)
  • 出力形態(長文ドキュメント/要約表/JSONスキーマ/パッチdiff)
  • 正解の一意性答えを“選ぶ”のが良いか、“統合”が良いか
  • 説明責任根拠URL・引用・評価理由の提示が必要か

2) モデルの得意分野マッピング

  • 高難度推論・分解・整合性チェック(仕様の矛盾発見、設計レビュー)
  • 長文の可読性・構成力(PRD、ヘルプ、ガイド、FAQの分かりやすさ)
  • 実務志向のコーディング(実装手順、テスト生成、最小修正の提案)
  • ワークスペース連携CLI/VS Code連携、差分適用・ローカル検証フロー)
  • ウェブ調査の速さと引用出典付き要点抽出一次情報探索

3) 補完関係(Lead/Supportの“噛み合わせ”)

  • 発散×収束:発想(Lead)→評価と取捨選択(Support)
  • 生成×検証:コード/文書の生成(Lead)→テスト・根拠検証(Support)
  • 外部調査×要約:最新情報収集(Lead)→構造化・戦略化(Support)
  • 可読性×正確性:読みやすく整える(Lead)→数理/仕様の厳密性(Support)
  • スピード×品質:初稿を速く(Lead)→仕上げで品質担保(Support)

4) リスク低減と信頼性

  • ハルシネーション抑止(引用必須の工程では、引用を得意とするモデルをLead
  • 一貫性維持(用語統一・スタイルガイド準拠を得意なモデルをSupportに配置)
  • 安全権限(Bash/Editなど“危険ツール”は必要工程のみを担当)
  • 審判LLMの相性(複数案から選ぶ/統合する際に偏りを抑えられるか)

5) オペレーション上の制約

  • レイテンシ/コスト(重い工程はLead1体、軽い検収をSupportに回す)
  • レート制限/可用性(ピーク時に詰まらない組み合わせ)
  • 再現性同じプロンプトで同等結果が出やすいモデルを審判・検収に
  • マルチリンガル日英混在ドキュメントでの安定度
  • 入出力の機械可読性(JSON/diff/表を崩さない安定出力)

6) あなたの環境適合(現場ワークフロー)

  • VS Code/CLI運用(差分適用・テスト実行と親和性)
  • Obsidian連携(既存ノートの参照・要点抽出・テンプレ充填)
  • WordPress公開フロー(FAQ/ヘルプ/変更履歴の生成→校正)
  • 既存資産との整合(用語表・PRD・過去記事との一致)

7) ステップ間のハンドオフ設計

  • I/Oスキーマ固定各工程の出力をJSON/表/パッチで標準化
  • 審判ポイントの設定(コンセプト選定・大規模変更・価格/GTM等でJudgeを配置)
  • 分岐ルール重大リスク時のみ追加の監査工程を発火=オンデマンド呼び出し)

8) 品質メトリクスとの結びつき

  • 定量KPIの有無(テスト合格率、用語整合率、根拠付き率、可読性スコア)
  • 評価ルーブリック(正確性・実行可能性・リスク明示・簡潔性の配点と合格基準)
  • 継続学習の仕掛け(失敗ケースのテンプレ化、プロンプト強化用のフィードバック回路)

これらの軸をどう割り当てに反映したか(要約)

  • 外部一次情報が肝の工程(市場/規制/価格)は「引用付き収集」をLeadに。
  • 仕様やコードの厳密性が肝の工程は、推論/検証が強いモデルをLeadに、読みやすさ・整形はSupportに。
  • 実装・検証を回す工程は、ワークスペース連携や差分適用が強いモデルをLeadにし、テスト生成/最小修正を補助へ。
  • 節目の意思決定は、審判適性(安定評価・I/O扱い・再現性)が高いモデルをJudgeに据え、匿名・順序ランダム・基準付きで選択/統合。

それぞれのAIの強み・弱みは、世間の評判と食い違う部分もあり、最適な割り当てかどうかの評価は意見が別れるところだが、及第点は取れる割り当て(たたき台)として、ここから修正すればよいのではと思う。GPT-5以外のAIの回答との整合性を確認するのも有効かもしれない。

役割の割り当て根拠「1)〜 8)」は十分抽出できたのではないかと思う。

目次