GPT-5やClaudeなどのAIを組み合わせて使う場合

2025年9月6日2025年9月10日

下記の記事では、複数のAIエージェントを利用するシステムについて調査を行ったが、本記事では、概略ではあるが、GPT-5やClaudeなどのAIを組み合わせて使う場合についてGPT-5に意見を聞いた。
（注）本記事の内容は正確性を保証するものではない。

GPT-5 の回答

最高責任者目線で、プロダクト開発を12ステップに分解し、GPT-5 / Gemini 2.5 Pro / Claude 3.5 / Perplexity Proの“主担当（Lead）/副担当（Support）”を割り当てました。
要点は「得意分野に役割集中」「出力フォーマットを固定（JSON/表）」「審判LLMで最終チェック」です。

配置マップ（要約）

ステップ	Lead	Support	任せる理由（要点）
0. 目標・制約の整理（PRDドラフト）	GPT-5	Claude	高度な推論と仕様の矛盾検出に強い。Claudeで表現の明確化。 OpenAI
1. 外部調査（市場/競合/規制）	Perplexity Pro	GPT-5	常時ウェブ検索＋引用で一次情報を素早く集約。GPT-5で要点抽出と示唆整理。 Perplexity AI BytePlus
2. 顧客インサイト要約（N=多）	GPT-5	Claude	大量テキストのクラスタリング/要因分解→構造化。Claudeで要約の読みやすさを担保。 OpenAI
3. アイデア創出/発散	Claude	GPT-5	多視点の発想と論点整理が得意。GPT-5で評価軸に沿ったスクリーニング。 Anthropic Anthropic
4. コンセプト比較・選定	GPT-5（審判）	Claude/Perplexity	複数案を評価指標でスコアリング。必要に応じPerplexityで根拠補強。 OpenAI Perplexity AI
5. 技術調査・実装可否	Gemini 2.5 Pro	GPT-5	CLI/VS Code連携でリポジトリ横断の調査/実験が速い。GPT-5で設計の妥当性チェック。 Google Developers Blog blog.google
6. 試作（コード/スクリプト）	GPT-5	Gemini	GPT-5は最新ベンチで強力なコーディング性能。Geminiは差分適用やローカル実験が得意。 OpenAI Google Developers Blog
7. 品質保証（テスト生成/修復）	GPT-5	Claude	失敗テスト→最小修正→再実行のループを自動化。Claudeで仕様逸脱の文章チェック。 OpenAI
8. セキュリティ/法令/同意対応	Perplexity Pro	Claude	規制・ガイドラインを出典付きで収集。Claudeでポリシー文案に整形。 Perplexity AI
9. UXコピー/ヘルプ/ドキュメント	Claude	GPT-5	明晰な長文/ガイド記述が安定。GPT-5でトーン統一・多言語展開。 Anthropic
10. ローンチ計画（GTM/価格/FAQ）	GPT-5	Perplexity	価格感/競合比較はPerplexityの最新情報→GPT-5で戦略化とFAQ自動生成。 Perplexity AI
11. 運用分析→次期計画	GPT-5	Gemini/Perplexity	ログ解析・A/Bの因果推論。必要に応じてGeminiでローカル検証、Perplexityで外部ベンチ比較。 Google Developers Blog

根拠要約：
GPT-5は推論/コーディング性能・“協働”設計が強化され、難題の分解とコード修正が得意。
Gemini 2.5 ProはCLI/VS Code連携やツール実行が強く、リポジトリ操作・差分適用に向く。
Claude 3.5は論点整理や読みやすい長文・仕様記述に強い。
Perplexity Proは最新のウェブ情報を引用付きで高速収集でき、一次情報の下支えに最適。
OpenAI　Google Developers Blog　Anthropic　Anthropic　Perplexity AI

すぐ使える運用ルール（最小セット）

出力I/Oを固定：各ステップの成果はJSONテンプレで（例：{hypotheses:[], risks:[], next_actions:[]}）。→後工程AIが読みやすく、審判（Judge）もしやすい。
“選ぶ or まとめる”の審判：重要な節目（4, 6, 10）はGPT-5をJudgeにし、候補文書（Claude/GPT/Geminiの3案）を匿名・順序ランダムで評価→選択か統合のいずれかを指示。
調査はPerplexity必須：外部要素を含むタスクではPerplexityで根拠URLを取得→他AIの生成に添付してハルシネーション抑止。 Perplexity AI
コード変更は2段承認：生成→GeminiのネイティブDiffで可視化→GPT-5がテストを自動追加/更新。 Google Developers Blog OpenAI

例：プロンプト断片（抜粋）

Perplexity（市場/規制）
> 「日本/EEAの○○規制の一次情報を最新日付順に3件、要点100字＋URLで。相反点は併記」 Perplexity AI
Gemini（技術検証）
> 「このリポジトリでfeature-xのPoCを最短実装。差分だけ提案→VS Codeで適用→npm test実行」 Google Developers Blog
Claude（ドキュメント）
> 「PRDの曖昧表現を列挙し、測定可能なKPI表へ正規化。語尾統一・不明確語の代替案付き」 Anthropic
GPT-5（Judge）
> 「評価基準（正確性40/実行可能性30/リスク明示20/簡潔性10）でA/B/Cを採点。勝者と統合案をJSONで」

補足

実運用ではAutoGen等のマネージャで「担当割り」と「審判」を組み、失敗時だけ再指名にするとコスト最適化できます。マイクロソフト　 Microsoft GitHub　Microsoft GitHub

主担当（Lead）/副担当（Support）を、どのような根拠で割り当てたかについて、さらに質問した。

配置マップ（要約）で、主担当（Lead）/副担当（Support）を割り当ててもらいました。任せる理由（要点）を確認すると、主担当（Lead）と副担当（Support）の補完関係などを考慮して割り当てられたと思いますが、どのような点を考慮しましたか。考慮した点を全て挙げてください。

GPT-5 の回答

了解です。前回の「Lead/Support」割り当てで私が系統立てて考慮した軸を、重複なく整理してすべて挙げます。

1) タスク特性（課題そのものの性質）

探索 vs 収束（発散アイデア出し／要件の確定・矛盾検出）
事実依存度（最新の外部情報・規制・相場が必要か）
実行可能性検証の要否（コード実行・差分適用・テスト運転）
出力形態（長文ドキュメント／要約表／JSONスキーマ／パッチdiff）
正解の一意性（答えを“選ぶ”のが良いか、“統合”が良いか）
説明責任（根拠URL・引用・評価理由の提示が必要か）

2) モデルの得意分野マッピング

高難度推論・分解・整合性チェック（仕様の矛盾発見、設計レビュー）
長文の可読性・構成力（PRD、ヘルプ、ガイド、FAQの分かりやすさ）
実務志向のコーディング（実装手順、テスト生成、最小修正の提案）
ワークスペース連携（CLI/VS Code連携、差分適用・ローカル検証フロー）
ウェブ調査の速さと引用（出典付き要点抽出、一次情報探索）

3) 補完関係（Lead/Supportの“噛み合わせ”）

発散×収束：発想（Lead）→評価と取捨選択（Support）
生成×検証：コード/文書の生成（Lead）→テスト・根拠検証（Support）
外部調査×要約：最新情報収集（Lead）→構造化・戦略化（Support）
可読性×正確性：読みやすく整える（Lead）→数理/仕様の厳密性（Support）
スピード×品質：初稿を速く（Lead）→仕上げで品質担保（Support）

4) リスク低減と信頼性

ハルシネーション抑止（引用必須の工程では、引用を得意とするモデルをLead）
一貫性維持（用語統一・スタイルガイド準拠を得意なモデルをSupportに配置）
安全権限（Bash/Editなど“危険ツール”は必要工程のみを担当）
審判LLMの相性（複数案から選ぶ/統合する際に偏りを抑えられるか）

5) オペレーション上の制約

レイテンシ/コスト（重い工程はLead1体、軽い検収をSupportに回す）
レート制限/可用性（ピーク時に詰まらない組み合わせ）
再現性（同じプロンプトで同等結果が出やすいモデルを審判・検収に）
マルチリンガル（日英混在ドキュメントでの安定度）
入出力の機械可読性（JSON/diff/表を崩さない安定出力）

6) あなたの環境適合（現場ワークフロー）

VS Code/CLI運用（差分適用・テスト実行と親和性）
Obsidian連携（既存ノートの参照・要点抽出・テンプレ充填）
WordPress公開フロー（FAQ/ヘルプ/変更履歴の生成→校正）
既存資産との整合（用語表・PRD・過去記事との一致）

7) ステップ間のハンドオフ設計

I/Oスキーマ固定（各工程の出力をJSON/表/パッチで標準化）
審判ポイントの設定（コンセプト選定・大規模変更・価格/GTM等でJudgeを配置）
分岐ルール（重大リスク時のみ追加の監査工程を発火＝オンデマンド呼び出し）

8) 品質メトリクスとの結びつき

定量KPIの有無（テスト合格率、用語整合率、根拠付き率、可読性スコア）
評価ルーブリック（正確性・実行可能性・リスク明示・簡潔性の配点と合格基準）
継続学習の仕掛け（失敗ケースのテンプレ化、プロンプト強化用のフィードバック回路）

これらの軸をどう割り当てに反映したか（要約）

外部一次情報が肝の工程（市場/規制/価格）は「引用付き収集」をLeadに。
仕様やコードの厳密性が肝の工程は、推論/検証が強いモデルをLeadに、読みやすさ・整形はSupportに。
実装・検証を回す工程は、ワークスペース連携や差分適用が強いモデルをLeadにし、テスト生成/最小修正を補助へ。
節目の意思決定は、審判適性（安定評価・I/O扱い・再現性）が高いモデルをJudgeに据え、匿名・順序ランダム・基準付きで選択/統合。

それぞれのAIの強み・弱みは、世間の評判と食い違う部分もあり、最適な割り当てかどうかの評価は意見が別れるところだが、及第点は取れる割り当て（たたき台）として、ここから修正すればよいのではと思う。GPT-5以外のAIの回答との整合性を確認するのも有効かもしれない。

役割の割り当て根拠「1）〜 8）」は十分抽出できたのではないかと思う。