Mapify 米国特許調査での活用

2024年9月11日2025年7月2日

米国特許のクレームのマップ化

openAI社の米国特許（米国特許第12079587号）のクレーム1をマップ化した。

クレーム1

1. A system comprising: at least one memory storing instructions; and at least one processor configured to execute the instructions to perform operations for multi-language, multi-task speech recognition, the operations comprising: obtaining a transformer model including an encoder and a decoder, the transformer model trained to transcribe or translate audio data in multiple languages using labeled audio data, the labeled audio data including first audio segments associated with first same-language transcripts of the first audio segments and second audio segments associated with second different-language transcripts of the second audio segments; and generating an output transcript from an input audio segment using the transformer model, generation including: configuring a decoder input with a language token corresponding to a first language; configuring the decoder input with a task token; and autoregressively configuring the decoder input with a first timestamp token predicted by the decoder based on an absence of a notimestamp token in the decoder input.

クレーム1の翻訳

命令を記憶する少なくとも1つのメモリと、多言語、マルチタスク音声認識のための操作を実行するために命令を実行するように構成された少なくとも1つのプロセッサと、を含むシステムであって、該操作は以下を含む：エンコーダとデコーダを含む変換モデルを取得することであって、該変換モデルは、ラベル付けされた音声データを使用して複数言語の音声データを転写または翻訳するように訓練されており、該ラベル付けされた音声データは、第1の音声セグメントの第1の同じ言語の転写物に関連付けられた第1の音声セグメントと、第2の音声セグメントの第2の異なる言語の転写物に関連付けられた第2の音声セグメントとを含む、取得することと、該変換モデルを使用して入力音声セグメントから出力転写物を生成することであって、生成を含む、生成することと：第1の言語に対応する言語トークンでデコーダ入力を構成することと、タスクトークンでデコーダ入力を構成することと、デコーダ入力にノーティムスタンプトークンがないことに基づいてデコーダが予測した第1のタイムスタンプトークンでデコーダ入力を自己漸進的に構成することとを含む。

クレーム1（英文）の内容をGPT-4oに説明してもらった

このシステムは、音声認識をするための仕組みで、複数の言語やタスク（作業）に対応しています。具体的には、音声データを文字に変換したり、異なる言語に翻訳したりすることができる仕組みです。

システムの中には、「トランスフォーマー」というモデル（人工知能の一種）が使われています。このモデルは、「エンコーダー」と「デコーダー」という2つの部分で構成されており、これらを使って、複数の言語の音声データを処理します。

まず、このモデルは、いろいろな音声データを「学習」しています。この学習データには、例えば「英語の音声とその文字起こし」や「日本語の音声とその文字起こし」、さらには「英語の音声と日本語訳」など、さまざまなパターンの音声と対応するテキストが含まれています。

システムが新しい音声データを受け取ると、まずそのデータがどの言語かを判断し、その言語に合わせた「デコーダー」という部分を設定します。また、そのデータが文字に変換するタスクなのか、翻訳するタスクなのかを指定します。そして、音声データを細かく時間ごとに区切りながら、その内容を少しずつ処理して、最終的にテキストとして出力します。
簡単に言えば、このシステムは「いろんな言語を同時に扱える音声認識や翻訳のためのAIシステム」です。
このように、クレーム1のシステムは、音声データを使って、複数の言語に対応した音声認識や翻訳を自動的に行う仕組みを説明しています。

・Mapifyを使えば、翻訳とマップ化の両方を同時に行える。
・クレームをタイムラインのフォーマットでも見ることもできる。

チャットウインドウの追加質問で得られた内容をマップに追加した例

マップのもとになった文章は、米国特許の1クレームにすぎず、その文章に課題が記載されているわけではないので、Mapifyが、同様のシステムの一般的な課題を、自身が保有している知識や、ネットで検索して得られた知識から生成している。