Gemini Native Audioがすごくて怖い

最近、スマホでAI翻訳を行うサービス(機能)が多く紹介されていた。下記のYouTube動画では、「Gemini Native Audio」というサービスが紹介され、従来のテキスト変換に伴う不自然な遅延を解消し、人間らしいリアルタイムな対話を実現するものとして紹介されていたが、Gemini 3 Proで調べたところ、「感情やトーンの理解」とか「非言語情報の認識」(ため息、笑い声、咳払い、沈黙の間、話すスピードの変化なども文脈として捉えられる)などの分析能力もあることが分かったので追加質問した。

NEW Gemini Update is INSANE! (https://www.youtube.com/watch?v=CavM3HtmyMs

(注)本記事の内容は正確性を保証するものではない。

(2025年12月25日 追記)YouTube動画を追加しました。  https://youtu.be/DENZGTOxN8Y

目次

Gemini Native Audioの概要

Gemini Native Audioについて教えてください

Gemini 3 Proの回答

Geminiの「Native Audio(ネイティブオーディオ)」とは、Geminiモデル(特にGemini 1.5 Pro/Flashや最新のGemini 2.0など)が、音声を「テキストに変換することなく」直接データとして理解・処理する能力のことを指します。

従来のアプローチと何が違うのか、どのようなメリットがあるのかをわかりやすく解説します。

1. 従来のアプローチとの違い

これまでのAI音声認識は、通常3つのステップを踏んでいました。

  1. 音声認識 (ASR): 音声を一度すべて「文字(テキスト)」に書き起こす。
  2. 処理 (LLM): 文字情報だけをもとにAIが考える。
  3. 音声合成 (TTS): 生成した回答(文字)を読み上げる。

Gemini Native Audio(マルチモーダル機能)の場合:

  • 直接理解: 音声を「音の波形やトーンのまま」直接モデルに入力し、処理します。文字起こしという中間工程を経ずに、音のニュアンスを含めて理解します。

2. Native Audioのここがすごい(メリット)

テキスト化を挟まないことで、以下のような高度な理解が可能になりました。

  • 感情やトーンの理解:単に「何を言ったか」だけでなく、「どう言ったか(怒っている、悲しんでいる、皮肉っぽく言っている)」を理解できます。
  • 非言語情報の認識:ため息、笑い声、咳払い、沈黙の間、話すスピードの変化なども文脈として捉えます。
  • 複数の話者の識別:「誰が話しているか」を声質で聞き分けたり、会話の割り込みなどを自然に処理したりできます。
  • 低遅延(リアルタイム性):テキスト変換のプロセスが省かれるため、応答が非常に高速になります。これにより、人間同士のようなテンポの良い会話(Gemini Liveなど)が実現しました。

3. 具体的な活用例

現在、この技術は以下のような形で利用されています。

A. 一般ユーザー向け:Gemini Live(Gemini ライブ)

スマートフォンのGeminiアプリで利用できる機能です。

  • ユーザーが話しかけると、即座に自然な声で返答します。
  • 割り込み可能: AIが話している途中で「あ、ごめん、そうじゃなくて」と話しかけても、瞬時に反応して話を修正します。

B. 開発者・ビジネス向け:動画・音声解析

Google AI StudioやVertex AIを通じて、長い音声ファイルや動画ファイルをアップロードし、分析させることができます。

  • 会議の録音:Aさんが反対意見を言った時のトーンは強かったですか?」といった質問に答えられる可能性があります。
  • 動画分析: 映像と音声を同時に理解し、「画面外でドアが閉まる音がしたタイミング」などを特定できます。

4. 比較まとめ

特徴従来のAI (テキストベース)Gemini Native Audio
処理方法音声 → テキスト → 理解音声 → 直接理解
感情理解苦手(文字情報のみ)得意(声色から推測)
非言語音無視されることが多い笑い声や拍手も認識
応答速度変換時間が必要で遅れがち非常に高速

この機能は、特に最新の Gemini 2.0 モデルにおいて、「Speech-to-Speech(音声を聞いて、音声で直接返す)」機能としてさらに強化されています。

この技術を使って、具体的にやりたいこと(例:英語の会話練習、長時間の会議分析など)はありますか? もしあれば、それに適した使い方をご案内します。

Gemini Native Audioが利用できる条件と費用を教えてください

Gemini 3 Proの回答

Gemini Native Audioの機能を利用するための条件と費用は、「個人として会話機能(Gemini Live)を使うか」、「開発者・企業としてAPI(ファイル分析)を使うか」によって大きく異なります。

現在の状況(2025年12月時点)に基づき、それぞれのケースで解説します。

1. 個人で利用する場合(Gemini Live / アプリ)

スマホでリアルタイムに会話したり、ファイルをアップロードして分析させたりする場合です。

プラン費用利用条件とできること
Gemini (無料版)0円条件: Googleアカウントとスマホアプリが必要。
できること: 基本的な会話は可能ですが、高度な「Gemini Live(割り込み可能なリアルタイム会話)」や最新モデルのフル機能には制限がある場合があります。
Gemini Advanced
(Google One AI プレミアム)
月額 2,900円条件: Google Oneの有料プラン加入。
できること:
Gemini Liveのフル機能(自然な会話、割り込み、声色の変化)
大容量ファイルの分析(長時間録音や動画のアップロード)
・最新モデル(Gemini 2.5 Pro/Ultraなど)の優先利用

個人利用のポイント:

  • 単に「声で話しかけて文字で返してもらう」だけなら無料版でも可能です。
  • Native Audio」の本領(感情理解、割り込み会話、動画の詳細分析など)をフル体験するには、月額2,900円のAdvancedプランが推奨されます。

2. 開発・ビジネスで利用する場合(API / Google AI Studio)

長い音声ファイルを分析したり、自社サービスに組み込んだりする場合です。ここでは「Google AI Studio」を利用するのが最も一般的でお得です。

A. 無料枠 (Free Tier)

Google AI Studioには、回数制限付きの強力な無料枠があります。

  • 費用: 0円
  • 条件:
    • 1分あたりのリクエスト数(RPM)や1日あたりの使用量に制限があります(例:1日50リクエストなど)。
    • 学習データへの利用: 無料枠で入力したデータは、Googleのモデル改善に使われる可能性があるため、機密情報の入力はNGです。
  • できること: Gemini 1.5 Pro / Flash や 最新の Gemini 2.0 / 2.5 を使った音声・動画分析のテスト。

B. 有料枠 (Pay-as-you-go)

制限を超えて使いたい場合や、業務で機密データを扱う(学習に使わせない)場合のプランです。

※音声は「トークン」という単位で課金されます(1秒 ≒ 32トークン)。

モデル音声入力の費用目安 (100万トークンあたり)実際のコスト感覚 (音声1時間あたり)
Gemini 1.5 Flash
(高速・安価)
約 $0.10 〜 $0.30約 1.5円 〜 5円
(非常に安いです)
Gemini 1.5 Pro
(高性能)
約 $2.00 〜 $3.00約 30円 〜 50円
(深い分析向き)
Gemini 2.0 / 2.5
(最新モデル)
モデルにより変動
Flash系は安価、Pro系は高価
性能に応じて上記と同様の価格帯
  • 100万トークン ≒ 音声 約8.7時間分 です。
  • つまり、Gemini 1.5 Flashなら、1時間の会議音声を分析しても数円程度しかかかりません。

まとめ:あなたにおすすめの方法

  1. 「まずは自分のスマホで会話練習などを試したい」
    • → Geminiアプリ(無料)から始めて、物足りなければ Gemini Advanced(月額2,900円) を検討。
  2. 「手元の音声・動画ファイルを分析してみたい(機密情報なし)」
    • Google AI Studio の無料枠 が最強です。コストゼロで最高性能のモデルを試せます。
  3. 「仕事の会議録音を大量に分析したい(機密情報あり)」
    • Google AI Studio の有料枠(Pay-as-you-go) に切り替えて利用。Flashモデルを使えば、1時間あたり数円で済みます。

Google AI Studioの使い方は非常に簡単ですので、PCをお持ちであれば、まずはそちらの無料枠でファイルをアップロードしてみることを強くお勧めします。

音声ファイル分析

音声ファイルから、下記の分析ができますか。

・話者の性格
・話者の感情の起伏
(どういう内容を話している時のトーンが強かったとか、どういう内容を話している時は自信がなさそうだったなど)
・話者の主張したいポイント
・話者の緊張状態
・話者へのアドバイス(話し方、話の内容の組み立て方など)

Gemini 3 Proの回答

はい、音声ファイルを使ってその5つの分析を行うことは可能です。

特に、Geminiの「Native Audio(ネイティブオーディオ)」機能を持つモデル(Gemini 1.5 Pro や 最新の Gemini 2.0 / 2.5 Flash など)を使用すれば、テキスト情報だけでなく「声色」や「話し方」も含めた深い分析ができます。

ご希望の項目ごとに、どのような分析が可能か具体的に解説します。

1. 各項目の分析イメージ

Geminiに音声ファイルを読み込ませ、適切なプロンプト(指示)を与えることで、以下のような出力が期待できます。

  • 話者の性格 (Personality Inference)
    • 分析: 言葉選び(ポジティブ/ネガティブ)、声のエネルギー話し方の速度などから推定します。
    • 出力例: 「話者は非常に外交的でエネルギッシュな性格に見受けられます。
      断定的な表現が多く、リーダーシップを取る傾向があるようです。」
    • ※あくまでAIによる発話データからの推定であり、心理学的な診断ではありません。
  • 話者の感情の起伏 (Emotional Fluctuation)
    • 分析: 声のトーン(高低)、大きさ、震えなどを時系列で追跡します。Native Audioならではの強みです。
    • 出力例: 「前半のプロジェクト概要を説明している時は落ち着いて自信に満ちたトーンでしたが、2分30秒頃の予算の話になると声が小さくなり、言い淀みが見られ、不安を感じている様子がうかがえます。」
  • 話者の主張したいポイント (Key Claims)
    • 分析: 話し手が特に声を強めた部分、繰り返し述べた内容、または「一番重要なのは~」といった強調フレーズを検出します。
    • 出力例: 「話者が最も強調していたのは『納期の短縮』です。この単語が出るたびに声のボリュームが上がっており、他の条件を譲ってでもここを優先したいという意図が読み取れます。」
  • 話者の緊張状態 (Tension Level)
    • 分析: 「えー、あー」といったフィラーの多さ、早口になる傾向、呼吸の乱れ、声の裏返りなどを検知します。
    • 出力例: 「開始直後は声が上ずっており極度の緊張状態にあったようですが、開始から5分経過したあたりで笑い声が混じり、リラックスして話せているようです。」
  • 話者へのアドバイス (Coaching/Feedback)
    • 分析: 上記の分析結果に基づき、より伝わりやすくするための改善点を提案します。
    • 出力例:
      • 話し方: 「重要なポイントの前で一瞬『間』を置くと、より説得力が増します。
        現在は少し早口すぎる傾向があります。」
      • 構成: 「結論から先に述べる構成にすると、聞き手の理解が深まります。冒頭の背景説明が少し長すぎます。

2. どうやって実行するか(ツールの選び方)

この分析を行うには、音声ファイルをアップロードできる環境が必要です。

  • 【推奨】Google AI Studio (開発者・一般向け)
    • 無料で利用でき、最も手軽にGemini 1.5 Proなどの高性能モデルを試せます。
    • 手順:
      1. Google AI Studio にアクセス。
      2. 右側の「+」ボタンから音声ファイル(MP3, WAVなど)をアップロード。
      3. チャット欄に「この音声ファイルを分析してください。話者の性格、感情の起伏…(以下要望)」と入力して実行。
  • Vertex AI (企業・エンジニア向け)
    • Google Cloud上のサービスで、大量のファイルをシステム的に処理したい場合に適しています。
  • Gemini Advanced (個人向け有料版)
    • ファイルをアップロードして分析できる機能がありますが、音声ファイルの直接解析(Native Audioとしての詳細なトーン分析)については、AI Studioの方が現時点ではより詳細なプロンプト制御が効きやすい場合があります。

3. 分析精度のコツ(プロンプト例)

AI Studioなどで試す際は、以下のようなプロンプト(指示文)を使うと効果的です。

プロンプト例:

「添付の音声ファイルは、ある人物のプレゼンテーションの録音です。音声のトーン、間、言葉選びなどの非言語情報も含めて、以下の観点で詳細に分析してください。

  1. 性格プロファイル: 話し方から推測される性格的特徴。
  2. 感情マップ: タイムスタンプ付きで、感情がどのように変化したか(特に自信がある部分と不安そうな部分)。
  3. 核心的メッセージ: 話者が最も伝えたかったことは何か。
  4. 緊張度: どの程度緊張しているか、またはリラックスしているか。
  5. スピーチコーチング: 次回に向けて、話し方や構成に関する具体的な改善アドバイス。」

このように指示を出せば、Geminiは音声データそのもののニュアンスを汲み取って回答してくれます。


音声分析の用途で、インターホン越しに来訪者と会話する場面において、インターホンが来訪者の音声を適宜録音し、うそを言っていないかなどの参考情報を提供できる可能性はありますか

Gemini 3 Proの回答

結論から申し上げますと、「技術的には十分に可能」であり、防犯や迷惑訪問のフィルタリングとして非常に有望な活用法です。

ただし、「嘘発見器(ポリグラフ)」のように100%嘘を見抜くことはできません。あくまで「怪しい兆候(リスクスコア)」を提示するという形になります。

インターホンという具体的なシチュエーションで、Gemini Native Audioのような技術がどのような「判断材料」を提供できるか、技術的・実用的な観点で解説します。

1. AIが分析・提供できる「参考情報」

インターホン越しの短い会話から、AIは以下のようなリスク判定を行い、家の中にいる住人(あなた)のスマホやモニターに警告を出すことができます。

A. 訪問目的の詐称検知(スクリプト分析)

訪問販売や詐欺業者は、特定のマニュアル(スクリプト)を持っていることが多いです。

  • 分析: 「工事の挨拶に来ました」と言いつつ、屋根の点検を執拗に迫るパターンなどを検知。
  • AIの判定: 「最初は『挨拶』と言っていましたが、会話パターンが『高額リフォーム詐欺』の勧誘スクリプトと80%一致します。警戒してください。

B. 感情と発言の不一致(矛盾検知)

Native Audioの強みである「声色」の分析が活きる部分です。

  • 分析: 「宅配便です」と言っているが、声が極端に小さい、震えている、あるいは逆に威圧的である。
  • AIの判定: 「『宅配』と言っていますが、声のトーンに強い緊張が見られます。また、背後に別の話し声(指示役?)が検知されました。」

C. 緊急性・攻撃性の検知

  • 分析: ドアを叩く音、荒い息遣い、大声。
  • AIの判定: 「来訪者の攻撃性が高いレベル(怒り・興奮)にあります。ドアを開けず、警察への通報を検討してください。」

D. 視覚情報との整合性(動画対応の場合)

カメラ付きインターホンの映像もAIに入力できる場合、精度は飛躍的に向上します。

  • 分析: 「水道局の者です」と言っているが、制服を着ていない、身分証を提示しようとしない、視線がキョロキョロしている。
  • AIの判定: 「発言内容は『公的機関』ですが、服装と所作が一致しません。嘘の可能性が高いです。」

2. 「嘘をついているか」の判定限界

AIはあくまでデータに基づいた推測を行うため、以下のような限界があります。これを理解しておく必要があります。

  • 緊張=嘘とは限らない:新人アルバイトの宅配員や、単に人見知りの来訪者も「緊張して声が震える」ことがあります。
    AIがこれを「怪しい」と誤判定する可能性があります(偽陽性)。
  • 詐欺師の演技:熟練の詐欺師や悪質なセールスマンは、非常に堂々としており、声のトーンも落ち着いています。
    この場合、音声分析だけでは「信頼できる」と判定される恐れがあります。

結論: 「嘘発見器」として使うのではなく、「不審点検知アラート」として使うのが適切です。

3. 実現に向けた構成イメージ(開発視点)

もしこれをシステムとして組む場合、現時点での技術構成は以下のようになります。

  1. 入力: スマートインターホンが映像・音声をキャプチャ。
  2. 転送: 音声データをクラウド(Google Vertex AI / Gemini APIなど)へ送信。
  3. 処理 (Gemini 1.5 Flash):
    • 高速なモデル(Flash)を使用し、遅延を1〜2秒に抑える。
    • プロンプト:「この訪問者は信頼できるか? 詐欺や強引なセールスの兆候はないか? 以下の基準でリスクスコアを出せ」
  4. 出力: 住人のスマホアプリにプッシュ通知。
    • 「⚠️ 警告:リフォーム詐欺の勧誘トークに酷似しています。対応不要です。」

4. 法的・倫理的な注意点

日本国内で運用する場合、以下の点に配慮が必要です。

  • プライバシー: 防犯目的の録画・録音は一般的に認められていますが、そのデータを「分析してプロファイリング(性格診断など)すること」に関しては、法的なグレーゾーンになる可能性があります(データの目的外利用など)。
  • 誤検知のリスク: AIが「不審者」と誤って判定し、住人が過剰防衛的な対応をしてしまった場合の責任問題。

まとめ

インターホンでの音声分析は、「オレオレ詐欺」「アポ電強盗」「悪質な訪問販売」への対策として極めて有効な手段になり得ます。

嘘を断定はできませんが、「言葉巧みなセールスマンの矛盾を見抜くアシスタント」として、高齢者のいる家庭などには特に需要がある技術だと言えます。


コールセンターでの音声分析の用途もあるようですが、この用途ではどのようなことができますか

Gemini 3 Proの回答

コールセンターは、Gemini Native Audioのような次世代AI技術が最も効果を発揮する分野の一つです。

従来は「音声を文字起こししてキーワード検索する」のが限界でしたが、Native Audioによって「声のトーン」「間(ま)」「感情の動き」まで分析できるようになり、オペレーター支援や品質管理のレベルが劇的に向上します。

具体的にできることを、「リアルタイム支援(通話中)事後分析(通話後)」の2つの側面に分けて解説します。

1. 通話中のリアルタイム支援(オペレーターを守り、助ける)

通話と同時にAIが音声を聴き続け、オペレーターの画面に指示やヒントを出します。

  • 「カスハラ(カスタマーハラスメント)」の即時検知
    • 機能: 顧客の声のボリューム、攻撃的な口調、早口、言葉を遮るタイミングなどを検知します。
    • 効果: 単なるクレームか、悪質なハラスメントかをAIが判断。危険水準を超えたら、自動的にスーパーバイザー(管理者)へアラートを飛ばし、即座に助けを呼べます。
  • 感情に合わせた会話コーチング
    • 機能: 顧客の「イライラ(トーンの上昇)」や「困惑(沈黙、言い淀み)」を察知します。
    • 効果: 画面に「お客様が少し急いでいます。結論から話しましょう」「困惑しているようです。ゆっくり補足説明を」といったアドバイスを表示し、経験の浅いオペレーターをナビゲートします。
  • 回答の自動提示(ナレッジ検索)
    • 機能: 会話の内容を理解し、必要なマニュアルや回答例を瞬時に画面に出します。
    • 効果: 保留時間を減らし、スムーズな解決を実現します。

2. 通話後の全件自動分析(品質管理と効率化)

これまでは管理者が「録音をランダムに聞いて評価」していましたが、AIなら全通話を一瞬で評価・分析できます。

  • NGワード・コンプライアンスチェック
    • 機能: 「絶対言ってはいけないこと(誤った案内、不適切な表現)」だけでなく、「自信なさげに案内していた箇所(リスク)」もトーンから検出します。
    • 効果: 法的リスクのある通話を漏れなく洗い出せます。
  • 「良いオペレーター」のスキル抽出
    • 機能: 成約率が高いオペレーターや、クレームを収めた通話を分析します。
    • 効果: 「どのような声のトーンで切り出したか」「相槌のタイミングはどうだったか」といった、文字には残らない「熟練の技」を言語化し、新人教育に活用できます。
  • 「サイレントクレーム」の発見
    • 機能: 怒鳴ったりはしないが、顧客が「諦めて電話を切った(深い失望)」ケースを、声のトーンの低下や、不自然な通話終了の仕方から見つけ出します。
    • 効果: 解約予兆を早期に発見し、フォローを入れることができます。

3. Native Audio だからこそできること(従来技術との違い)

従来の「文字起こしAI」と、Gemini Native Audioの違いは以下の点です。

分析項目従来のテキスト分析Native Audio (Gemini)
顧客の感情「怒り」「最悪」などの単語で判断声の震え、怒鳴り声、皮肉っぽい言い方まで検知
沈黙(無音)無視される、または単なる空白「考えるための沈黙」か「怒りの沈黙」かを文脈で区別
相槌・割り込み文字化されるとノイズ扱いされがち「適切な相槌」か「話を遮る悪い割り込み」かを判定
評価の自動化キーワードを言ったかどうかで判定「心からの謝罪」か「マニュアル棒読み」かを判定

まとめ

コールセンターでの活用は、単なる業務効率化だけでなく、「オペレーターの精神的負担の軽減(守る)」「顧客の本音の理解(攻める)」の両面で非常に大きな価値があります。

特に、「文字には表れないが、電話口では明らかに不機嫌な顧客」「マニュアル通りだが、冷たい対応をするオペレーター」といった、人間ならすぐ分かる違和感をAIが理解できるようになった点が革命的と言えます。

動画ファイル分析

話者が写っている動画ファイルから、下記の分析ができますか。

・話者の性格
・話者の感情の起伏
(どういう内容を話している時のトーンが強かったとか、どういう内容を話している時は自信がなさそうだったとか、どういう内容を話している時に身振り手振りが大きくなったなど)
・話者の主張したいポイント
・話者の緊張状態
・身振り手振りの特徴と、その特徴から分かること(話者の性格、強調したい内容など)
・話者へのアドバイス(話し方、目線の向け方、身振り手振り、話の内容の組み立て方など)

Gemini 3 Proの回答

はい、動画ファイルを使えば、その全ての分析がさらに高精度で可能です。

音声だけの分析に加え、「視覚情報(表情、視線、身振り)聴覚情報(声のトーン、内容)」を掛け合わせて分析できるため、人間が観察するのと同じような深い洞察が得られます。

ご質問の各項目について、動画(映像+音声)だからこそできる分析内容を解説します。

1. 動画で可能になる高度な分析

Gemini(特に 1.5 Pro / Flash や 2.0)は、動画を「連続した画像」と「音声」として同時に理解するマルチモーダル能力を持っています。

  • 話者の性格
    • 分析要素: 服装、姿勢(胸を張っているか、猫背か)、表情の豊かさ、カメラへの視線の向け方。
    • 動画ならでは: 声は元気でも「目が笑っていない」「姿勢が常に防御的(腕組みなど)」といった矛盾から、より複雑な内面や性格(慎重、内向的だが頑張って振る舞っている、など)を推測します。
  • 話者の感情の起伏と内容の連動
    • 分析要素: 表情の変化(眉をひそめる、口角が上がる)と声のトーンの組み合わせ。
    • 具体例:
      • 「『将来のビジョン』を語る時(内容)、目が輝き、身振りが大きくなりました(視覚)。」
      • 「『競合他社のリスク』について触れた時(内容)、視線が下に落ち、声が小さくなりました(視覚+聴覚)。」
    • このように、「どの話題の時に、どんな動きをしたか」をリンクさせて分析できます。
  • 話者の主張したいポイント
    • 分析要素: 強調のハンドジェスチャー(指を立てる、手を広げる)、カメラへの接近、真剣な眼差し。
    • 動画ならでは: 音声ではサラッと言っていても、「身振りを交えてカメラを凝視した瞬間」を検知し、そこが重要ポイントであると判断します。
  • 話者の緊張状態
    • 分析要素: まばたきの回数、体の揺れ、不必要な手の動き(髪を触る、ネクタイを直す)、視線の泳ぎ。
    • 動画ならでは: 声は震えていなくても、「手が小刻みに震えている」「視線が定まらない」といった視覚的なサインから、隠された緊張を見抜くことができます。
  • 身振り手振りの特徴と、そこから分かること
    • 分析要素: 手の開き方(オープンかクローズか)、動きの大きさ、頻度。
    • 具体例:
      • 手のひらを上に向けて見せる: 「正直さ、オープンな心」を表しており、聴衆に親近感を与えようとしています。
      • 指差しが多い: 「攻撃的、または権威的」な印象を与え、自信の表れですが、威圧的に見えるリスクがあります。
      • 体の前で手を組んだまま: 「防御的、警戒心」を表している可能性があります。
  • 話者へのアドバイス
    • 分析要素: 上記すべてを統合したパフォーマンス評価。
    • アドバイス例:
      • 目線: 「重要なキーワードを言う瞬間に、メモを見てしまっています。そこだけはカメラ(聴衆)を見ましょう。
      • 身振り: 「全体的に動きが少なく直立不動です。『大きい』『小さい』などの形容詞を使う時は、手でサイズを示すとより伝わります。」
      • 構成: 「前半は笑顔でしたが、結論部分で急に真顔になりすぎています。安心感を与えるために、最後も穏やかな表情で締めくくりましょう。」

2. おすすめの実行方法

動画ファイルはデータ量が多いため、Google AI Studio を使用するのが最適です。

  1. Google AI Studio にアクセス。
  2. 動画ファイル(MP4, MOVなど)をアップロード(長時間の動画も処理可能です)。
  3. アップロード完了後、チャットボックスに以下のプロンプトを入力します。

3. 分析用プロンプトの例

このプロンプトをコピー&ペーストして調整して使ってみてください。

プロンプト:

アップロードした動画は、ある人物のスピーチです。映像(表情、身振り、視線)と音声(トーン、内容)の両方を分析し、以下のレポートを作成してください。

【分析レポート】

  1. 性格推定:
    • 話し方や立ち振る舞いから推測される話者の性格的特徴。
  2. 感情とトーンのタイムライン分析:
    • 話者の感情が大きく動いた瞬間をタイムスタンプ付きで挙げてください。
    • 例:「02:15 – 『〇〇』について話す際、身振りが激しくなり、強い情熱が見られた」
    • 例:「04:30 – 『××』の話題で視線が泳ぎ、自信がなさそうに見えた」
  3. 非言語コミュニケーション(身振り・手振り):
    • 特徴的なジェスチャーはありましたか?(例:手のひらを見せる、指を差す、体を揺らす)
    • そのジェスチャーは、話者のどのような心理状態や意図を表していますか?
  4. 緊張レベルの評価:
    • 目線の動き、まばたき、無意識の癖(髪を触るなど)から、緊張度を5段階で評価し、その理由を述べてください。
  5. 総合アドバイス(コーチング):
    • より説得力を持たせるために改善すべき点を3つ挙げてください。
    • (目線の配り方、ジェスチャーのタイミング、話し方の緩急など具体的に)

補足

Gemini 1.5 Proなどのモデルは1時間の動画も一度に読み込めるほどの処理能力があるため、長い講演や会議の動画でも問題なく分析できます。

Gemini Native Audioは、人同士のコミュニケーション、人とAIのコミュニケーションのあり方を変えてしまうものかもしれない。人同士のコミュニケーションにおいて、あえて相手の分析をやらないという選択肢もある。

人間なら薄々感じていることを、AIに忖度なくビシッと指摘されるとショックが大きいかもしれない。その場合、その人間の性格をAIが知っていれば表現を和らげてくれるかもしれない。

目次