AIの学習データに関連する訴訟

AI企業(Anthropic PBC)が、インターネット上の海賊版サイトから書籍をダウンロードし、また著作権者から許可なく書籍を購入してそれをデジタル化し、そのデータを使って大規模な言語モデル(LLM)のトレーニングを行ったことが著作権侵害に該当するかどうかを争った米国訴訟について調べたところ、米国裁判所は、海賊版の書籍を使用してライブラリを作成した行為は米国著作権法のフェアユース(公正利用)に該当しないと判断したが、書籍をデジタル化する行為と、そのデータをAIの学習に使用する行為はフェアユースに該当すると判断したので、それらの点についてAIに質問した。

ChatGPT 4oに質問したが、十分な情報が得られなかったのでPerplexity Proの回答を紹介する。ただし、本記事の内容は、記事作成者の調査およびAI(人工知能)の回答を元にしているが、必ずしも正確であることを保証するものではないため参考情報とする。

購入した書籍をデジタル化することは、米国でのフェアユースに該当するというのは正しいですか

Perplexity Proの回答

購入した書籍をデジタル化する行為が、米国の著作権法における「フェアユース」に該当するかどうかは一概には言えず、その利用目的や方法によって判断が異なります。判例を見ると、特定の条件下では認められる可能性がある一方で、認められないケースも明確に示されています。

フェアユースの判断基準

フェアユースは、著作権で保護された作品を特定の状況下で許可なく利用することを認める法理です。裁判所は、ある利用がフェアユースに該当するかを判断する際に、主に以下の4つの要素を総合的に考慮します。

  1. 利用の目的と性格: 非営利的、教育的な目的か、商業的な目的か。また、元の作品に新しい表現や意味を加える「変容的利用であるかどうかが重視されます。
  2. 著作物の性質: 利用された著作物が事実に基づくものか、創造的なものか。小説のような創造的な作品の利用は、フェアユースと認められにくい傾向があります。
  3. 利用された部分の量と実質性: 作品全体に対して、利用された部分の量と重要性。作品全体をコピーする行為は、フェアユースに不利に働くことが多いです。
  4. 利用が著作物の潜在的市場または価値に与える影響: その利用が、元の作品の市場や価値を損なうかどうか。元の作品の売り上げを奪うような利用は、フェアユースと認められにくくなります。

判例から見るデジタル化とフェアユース

フェアユースと認められなかった事例:Internet Archive事件
非営利団体「Internet Archive」は、所蔵する紙の書籍をスキャンし、デジタルコピーをインターネット上で無料で貸し出すサービスを提供していました。出版社らはこれを著作権侵害として提訴しました。

裁判所は、以下の理由からInternet Archiveの行為はフェアユースに該当しないと判断しました。

  • 非変容的な利用: 書籍をデジタル形式に複製するだけで、新しい表現や意味を加えておらず、「変容的利用」とは見なされませんでした
  • 市場への悪影響: 無料のデジタル貸し出しは、出版社が販売する電子書籍の市場と直接競合し、その価値を損なうと結論付けられました。
  • 利用の量: 書籍全体をコピーして公開している点も、フェアユースの主張を弱める要因となりました。

この判例は、たとえ合法的に購入した書籍であっても、それをデジタル化して元の書籍と競合する形で公開・配布する行為は、フェアユースとは認められないことを明確に示しています。

フェアユースと認められた事例:Google Books事件とHathiTrust事件
一方で、特定の目的のためのデジタル化がフェアユースと認められた事例もあります。

  • Google Books事件: Googleが多数の書籍をスキャンして検索可能なデータベースを構築し、検索結果として内容の一部(スニペット)のみを表示する行為は、フェアユースと判断されました。これは、元の書籍を読むという目的とは異なる、情報を検索するという「変容的利用」であると評価されたためです。
  • HathiTrust事件: 図書館連合が、蔵書の保存、全文検索、そして印刷物を読めない障害を持つ利用者へのアクセシビリティ提供を目的として書籍をデジタル化した行為も、フェアユースと認められました。これらの目的は、元の作品の市場を代替するものではないと判断されています。

個人的な利用のためのデジタル化

著作権法は、個人的な利用であってもコピーを作成する際には適用されます。購入した書籍を個人的なバックアップや、より便利なデバイスで読むためにデジタル化する(いわゆる「スペースシフト」)ことがフェアユースに当たるかについては、明確な判例がありません。

しかし、判例の傾向からは以下の点が示唆されます。

  • 目的が重要: デジタル化の目的が、アーカイブ保存や学術研究といった非営利的なものであれば、フェアユースと認められる可能性が高まります。
  • 限定的な利用: デジタル化したコピーを自分自身やごく限られた範囲でのみ利用し、配布や公開をしないことが重要です。不特定多数に配布する行為は、Internet Archiveの事例のように著作権侵害と見なされる可能性が非常に高いです。
  • 市場への影響: デジタル化によって元の書籍や電子書籍の市場に悪影響を与えないことが求められます。

結論として、購入した書籍をデジタル化する行為がフェアユースに当たるかは、その目的と利用方法に大きく依存します。単に元の書籍を置き換えるのではなく、保存や検索、アクセシビリティ向上といった「変容的」な価値を加える利用であれば認められる可能性がありますが、元の作品の市場を侵害するような方法での複製や配布は、フェアユースの範囲を超える可能性が高いです。

米国裁判所は、購入済み書籍をデジタル化して、AIの学習に利用することは、フェアユースに該当すると認めていますか

Perplexity Proの回答

はい、最近の米国の連邦裁判所の判決では、AI企業が合法的に購入した書籍をデジタル化してAIの学習データとして利用する行為は、「フェアユース」に該当すると認められています。ただし、この判断には重要な条件と限界があります。

Anthropic社に対する画期的な判決

2025年6月、カリフォルニア州北部地区連邦地方裁判所のウィリアム・アルサップ判事は、AI企業Anthropicが、購入した書籍をデジタル化して自社のAIモデル「Claude」の学習に利用した行為は、著作権法上のフェアユースに当たるとの判断を下しました。

この判決の核心は、AIの学習目的での利用が「変容的利用(transformative use)」であると認められた点です。裁判所は、AIが書籍から学ぶのは、その内容を複製したり、元の書籍の代替品を作ったりするためではないと指摘しました。むしろ、人間が作家になるために多くの本を読むように、AIも概念やパターン、文体を学習し、全く新しいもの(人間のようなテキスト応答を生成する能力)を創造していると評価されました。この「変容性」が、フェアユースを認める上で決定的な要因となりました。

同様の判決は、Meta社に対する別の著作権訴訟でも下されています。

フェアユースが認められるための重要な条件

このフェアユースの判断には、厳格な条件が付されています。

  • 合法的な入手が必須: フェアユースが認められたのは、Anthropicが物理的な書籍を合法的に購入し、それらを裁断・スキャンしてデジタル化したものに限られます。裁判所は、合法的に所有しているコピーのフォーマットを変更することは、より効率的な保管や検索を可能にするものであり、著作権者の利益を侵害しないと判断しました。
  • 海賊版の利用は違法: 判決は、海賊版サイトからダウンロードした書籍を利用・保管する行為はフェアユースに該当せず、著作権侵害であると明確に判断しました。Anthropicは、海賊版書籍を利用したとされる疑惑について、別途裁判で争う必要があります。裁判所は「盗品を元にした利用は、たとえその後の利用目的がフェアユースであっても、当初の盗難の責任を免れるものではない」という厳しい姿勢を示しています。

判決の意義と今後の課題

これらの判決は、AIの学習データに関する著作権問題において、AI業界にとって有利な初の司法判断であり、今後の同様の訴訟に大きな影響を与える可能性があります。

しかし、これはAIによる著作物利用が全面的に合法化されたことを意味するものではありません。注意すべき点として、以下の点が挙げられます。

  • 事案ごとの判断: 判決は特定の事実関係に基づいており、今後の訴訟で原告側がより強力な証拠(例えば市場への具体的な損害など)を提示すれば、異なる判断が下される可能性も示唆されています。
  • 「入力」と「出力」の問題: 今回の判決が扱ったのは、あくまでAIの学習データとしての「入力」の問題です。AIが生成した「出力」が元の著作物の著作権を侵害するかどうかという、より複雑な問題は、今回の判決の対象外となっています。

結論として、現在の米国の司法判断では、合法的に入手した書籍をデジタル化してAIの学習に利用する行為は、その変容的な性質からフェアユースと認められる傾向にあります。しかし、その前提として、学習データの出所が合法であることが絶対的な条件となります。

学習すること自体はフェアユースと認められる可能性があり、元の著作物と類似したものを出力しないように、また、著作権者に損害を与えないように出力を構成する必要があるということだが、その出力を調整するために常識的な人間の講師が必要ということか。

購入済み書籍をデジタル化して、AIの学習に利用することは、著作権侵害に該当しないと判断している国は、米国以外にありますか

Perplexity Proの回答

はい、米国以外にも、購入済み書籍など合法的にアクセスできる著作物をAIの学習に利用することは、著作権侵害に該当しないと判断している、あるいはそのように解釈できる法律を持つ国が存在します。特に、日本シンガポールがその代表例として挙げられます。

これらの国々は、米国の「フェアユース」という事後的な司法判断に委ねられる柔軟な基準とは異なり、AI開発を促進するために、法律で明確に著作物の利用を認める例外規定を設けている点が特徴です。

日本の著作権法

日本の著作権法は、AIの学習利用に関して世界で最も寛容な法律の一つと評価されています。

  • 根拠となる規定: 2018年に改正された著作権法第30条の4では、著作物に表現された思想・感情の享受を目的としない利用(非享受目的利用)であれば、原則として著作権者の許諾なく著作物を利用できると定められています。
  • AI学習への適用: AIの学習のために書籍データを解析する行為は、書籍の物語や思想を「楽しむ(享受する)」ことが目的ではないため、この条文に該当すると解釈されています。これにより、商用目的のAI開発であっても、学習データとして著作物を利用することが可能です。
  • 条件: この規定が適用される大前提として、利用する著作物を適法に入手している必要があります。したがって、購入した書籍をデジタル化して学習に利用することは、この条件を満たします。ただし、海賊版など違法にアップロードされた著作物を利用することについては、議論が続いています。

シンガポールの著作権法

シンガポールもまた、AI開発を後押しする法整備を進めています。

  • 根拠となる規定: 2021年の著作権法改正で導入された第244条は、「計算的データ分析(computational data analysis)」を目的とする場合、著作物の複製を認めています。
  • AI学習への適用: AIの学習は、この「計算的データ分析」に該当すると考えられています。日本と同様に、この例外規定は商用目的の利用も対象としています。
  • 条件: シンガポールの法律でも、例外規定の適用には「合法的なアクセス(lawful access)」が条件とされています。購入した書籍は、この合法的なアクセスという要件を満たします。

他の地域との比較

  • 欧州連合(EU): EUにもテキスト・データマイニング(TDM)に関する例外規定がありますが、日本の規定ほど広範ではありません。特に、商用目的のTDMについては、著作権者が利用を拒否する「オプトアウト(利用拒否)」の意思表示をすれば、例外規定の対象外となります。これは、開発者側に常に許諾の有無を確認する負担を求めるもので、より権利者保護に重きを置いた制度です。
  • 米国: 米国では、AI学習が著作権侵害にあたるかどうかが「フェアユース」の法理に基づき裁判で争われています。フェアユースは個別具体的な事案ごとに判断されるため、法的安定性に欠ける側面があります。これに対し、日本やシンガポールは、法律で明確な例外を設けることで、AI開発者にとって予測可能性の高い環境を提供していると言えます。

このように、世界各国でAI開発と著作権のバランスをどう取るかについて様々なアプローチが取られており、日本やシンガポールはAI開発を促進する立場から、より明確で寛容な法制度を採用しています。

日本の著作権法について、下記のように回答してもらいましたが、このような改正が行われたきっかけや理由は分かりますか。

根拠となる規定: 2018年に改正された著作権法第30条の4では、著作物に表現された思想・感情の享受を目的としない利用(非享受目的利用)であれば、原則として著作権者の許諾なく著作物を利用できると定められています。

Perplexity Proの回答

はい、2018年(平成30年)に著作権法が改正され、第30条の4が新設された背景には、AIやビッグデータといった技術の急速な進展という社会的な変化がありました。

この改正の主なきっかけと理由は、以下の2点に集約されます。

1. 新たな技術革新と産業の促進

改正が行われる前、IoT、ビッグデータ、AIといった新しい技術を活用して、社会にイノベーションを起こそうという動きが世界的に活発になっていました。これらの技術は、インターネット上に存在する大量のテキスト、画像、音声といった著作物をデータとして収集・解析することが不可欠です。

しかし、当時の日本の著作権法では、これらの著作物を利用するたびに、一つ一つの著作権者から許諾を得る必要がありました。これは、AI開発のように膨大な量のデータを扱う場合、事実上不可能に近い作業となり、日本における技術開発や産業競争力の向上にとって大きな障壁となっていました。

この状況を打開し、技術革新を法制度の面から後押しするために、より柔軟なルール作りが求められたのです。

2. 「利用目的」に着目した新しい考え方の導入

そこで、改正の議論の中で注目されたのが、著作物の「利用目的」です。

  • 従来の著作権保護の中心: 著作権法が伝統的に保護しようとしてきたのは、人々が小説を読んだり、音楽を聴いたり、映画を観たりといった、作品の表現から知的・精神的な欲求を満たす「享受」という行為でした。著作権者は、この「享受」の対価として収益を得る機会を保障されています。
  • AIによる利用の本質: 一方で、AIが学習のために書籍のデータを読み込むのは、物語を楽しむためではありません。データの中から言語的なパターンやルールを抽出・解析することが目的です。このような利用は、人間の「享受」とは異なり、著作権者が本来対価を得るべき市場と直接競合するものではないと考えられました

この考え方に基づき、「著作物に表現された思想又は感情の享受を目的としない利用(非享受目的利用)」であれば、原則として著作権者の利益を害するものではないため、許諾なく利用を認めるべきだという結論に至りました。

このように、著作権法第30条の4は、デジタル化やネットワーク化という技術の進展に対応し、日本のイノベーションを促進するという明確な目的のもとで導入されました。それは、著作権者の正当な利益を守りつつ、新たな技術の発展を妨げないように、両者のバランスを取るための重要な法改正だったのです。

デジタル化された著作物への対応が日本で検討され、このような改正が行われていたのは意外。
AIが出力したものによって、元の著作物によるのと同じように欲求が満たされるかどうかということか。

著作権者が利用を拒否する「オプトアウト」の例をあげてください

Perplexity Proの回答

著作権者が自身の著作物をAIの学習に利用されることを拒否する「オプトアウト」には、いくつかの具体的な方法や事例があります。これは特に、欧州連合(EU)の著作権法制で権利として明確に認められています。

以下に、その主な例を挙げます。

機械可読な方法による意思表示

ウェブサイトに公開されている著作物について、AIなどのプログラムが自動的に読み取れる形式で利用拒否の意思を示す方法です。EUの「デジタル単一市場における著作権指令(DSM指令)」では、この方法によるオプトアウトが明示的に認められています。

  • robots.txtファイルの使用: ウェブサイト運営者が、検索エンジンなどのクローラー(自動巡回プログラム)に対して、サイト内のどのページへのアクセスを許可または禁止するかを指示するためのテキストファイルです。AI開発企業が学習データを収集するために使用するクローラーをこのファイルでブロックすることにより、著作権者は自身のサイト上のコンテンツがAI学習に利用されることを拒否する意思表示ができます。

著作権管理団体による組織的なオプトアウト

個々の権利者に代わり、著作権管理団体が包括的にオプトアウトを宣言するケースです。

  • フランス音楽著作権管理団体SACEMの事例: フランスの音楽作家・作曲家・出版社協会(SACEM)は2023年10月、管理する全ての音楽作品について、AI学習を目的としたデータマイニングからのオプトアウト権を行使すると発表しました。これにより、AI開発者がSACEMの管理楽曲を学習データとして利用したい場合、事前にSACEMと利用条件を交渉し、許諾を得ることが必須となりました。これは、クリエイターへの公正な報酬を確保することを目的とした組織的な対抗措置の代表例です。

AIサービス提供者が用意するオプトアウト機能

これは著作権者が自身の既存の著作物の利用を拒否するのとは少し文脈が異なりますが、「AIに学習させない」という広義のオプトアウトの一例です。AIサービスのユーザーが、自身が入力した情報をAIの学習データとして使われることを拒否するための機能です。

  • ChatGPTのオプトアウト設定: OpenAI社が提供するChatGPTには、ユーザーが入力した情報をAIモデルの学習に利用させないようにする設定(データコントロール)が用意されています。この設定を有効にすると、ユーザーは自社の機密情報や個人情報が意図せずAIに学習され、将来的に他のユーザーへの回答として流出するリスクを低減できます。ただし、この設定を有効にすると、ユーザーごとの利用履歴に基づいた回答精度の向上やカスタマイズといった恩恵は受けられなくなります

これらの例が示すように、オプトアウトはEUのように法律で権利が保障されている地域で活発に行われています。その方法は技術的なファイル設定から、団体による宣言、サービス内のユーザー設定まで多岐にわたります。一方、日本の現行著作権法には、権利者によるオプトアウトに関する明確な規定は存在しません。

日本の著作権法30条4項におけるオプトアウト規定の実現可能性はどう考えられるか

Perplexity Proの回答

日本の著作権法第30条の4に、EUのような著作権者による「オプトアウト(利用拒否)」規定を導入することの実現可能性については、法改正を待たずに現行法の解釈で対応する方法が専門家から提案されるなど、活発な議論が行われています。

現行の著作権法第30条の4には、AI学習のための著作物利用を権利者が拒否するオプトアウトに関する直接的な規定は存在しません。この条文は、AIの学習のように著作物を「享受(鑑賞など)」する目的ではない利用を、原則として著作権者の許諾なく認めています

ただし、この例外規定には「著作権者の利益を不当に害することとなる場合は、この限りでない」という但し書きがあり、この部分の解釈がオプトアウト実現の鍵と見なされています。

法改正によらない実現の可能性

法改正には時間がかかるため、より迅速な対応として、現行法の解釈を明確化する方法が考えられています。

著作権に詳しい福井健策弁護士は、以下の方法を提案しています。

  • 行政ガイドラインによる解釈の明確化: 文化庁などの行政が策定するガイドラインで、「権利者がオプトアウトの意思表示をしているにもかかわらず、それを無視して商用目的でAI学習に利用する行為」を、「著作権者の利益を不当に害する場合」の具体例として示す。
  • 但し書きの活用: このように但し書きの解釈を運用で補うことで、法改正を経ずに事実上のオプトアウトの仕組みを導入できる可能性があります。

法改正による実現の可能性

より恒久的で明確なルールを設けるためには、法改正によってオプトアウト規定を新設する方法があります。その際には、現行法にも参考にできる類似制度が存在します。

  • 軽微利用規定(第47条の5)との類似性: この条文は、検索エンジンの検索結果にウェブサイトの一部(スニペット)を表示するような「軽微な利用」を認めるものですが、robots.txtやHTMLのメタタグで情報収集を禁止する意思表示がされている場合は、その対象から除外されます。この「機械可読な方法による意思表示」を尊重する仕組みは、AI学習におけるオプトアウト制度を設計する上でのモデルとなり得ます。

政府のスタンスと今後の課題

現時点では、政府はオプトアウト規定の導入に慎重な姿勢を示しています。文化庁は「AIと著作権に関する考え方について」の素案の中で、「著作権者の利益を不当に害するか」の判断は、最終的には個別の事案に応じた司法判断に委ねられるべきだという見解を示しています。

しかし、2018年の法改正当時に比べて生成AIの性能は飛躍的に向上し、クリエイターや社会に与える影響が大きくなっていることから、現行法のままで良いのかという議論が活発になっています。日本でもオプトアウト規定を導入すべきだという主張は根強くあり、今後の政府内での議論の行方が注目されます。

結論として、日本の著作権法にオプトアウト規定を導入する実現可能性は、法改正と現行法の解釈運用の両面から検討されています。特に、但し書きの解釈を具体化するアプローチは、より迅速な対応策として注目されますが、その実現は今後の政府の判断や社会的なコンセンサスの形成にかかっています。

オプトアウトは、具体的に、どのような文言で表現されますか(表現されたことがありますか)。具体的な例を全てあげてください

Perplexity Proの回答

著作権者がAI学習などからの利用を拒否する「オプトアウト」の意思表示は、その対象や目的、伝える相手によって様々な文言や形式で表現されます。

以下に、実際に使用されている、あるいは提案されている具体的な表現例を、カテゴリーに分けて網羅的にご紹介します。

1. 機械が自動で読み取るための技術的な表現

ウェブサイト運営者が、AIのクローラー(データ収集プログラム)に対して直接、利用拒否の意思を伝えるための最も一般的な方法です。

a) robots.txt ファイルによる表現

ウェブサイトのルートディレクトリに設置するテキストファイルで、特定のクローラーのアクセスを制御します。

  • 特定のAIクローラーを名指しで拒否する例
    OpenAI社のクローラー「GPTBot」と、汎用クローラー「CCBot」のアクセスをサイト全体で禁止する場合。 textUser-agent: GPTBot Disallow: / User-agent: CCBot Disallow: /
    • User-agent::対象となるクローラー名を指定します。
    • Disallow: /:サイト内の全ての階層(/)へのアクセスを禁止するという意味です。
  • 全てのAIクローラーを包括的に拒否する例
    現在知られている主要なAIクローラーをまとめて指定します。 textUser-agent: Google-Extended User-agent: GPTBot User-agent: OGPTBot User-agent: CCBot User-agent: anthropic-ai User-agent: FacebookBot Disallow: /

b) HTMLのメタタグによる表現

特定のHTMLページのヘッダー部分に記述し、そのページ単位での利用を拒否します。robots.txtより細かい制御が可能です。

  • 全てのAI利用を拒否する例
    まだ公式な標準ではありませんが、事実上の標準として普及しつつある表現です。 xml<meta name="robots" content="noai, noimageai">
    • noai:ページのテキストやデータをAIの学習に利用することを禁止します。
    • noimageai:ページ内の画像をAIの学習に利用することを禁止します。
  • GoogleのAI学習からの除外を指定する例
    Googleが定義したタグで、GoogleのAIモデル(Vertex AIなど)の学習から除外します。 xml<meta name="google" content="nosnippet, noimageindex, noarchive"> (※注:より直接的なnoaiに相当するGoogle-Extendedの制御はrobots.txtで行います)

2. 利用規約や公式声明における法的な表現

企業や団体が、自らのコンテンツ全体の利用ポリシーとして、人間が読むことを前提に法的な拘束力を持たせるための表現です。

  • フランスの音楽著作権団体SACEMの公式声明
    EUの著作権指令に基づくオプトアウト権の行使を宣言した際の表現です。 「SACEMは、管理する全作品について、AIによるテキスト・データマイニング(TDM)を目的とした複製に関する著作権の例外規定からのオプトアウト権を行使することを宣言します。これにより、当団体の明確な許諾なくこれらの作品をAIの学習に利用することは、著作権侵害となります。」
  • 大手報道機関の利用規約(一般的な文例)
    ニュースサイトなどが利用規約に盛り込んでいる、スクレイピング(自動収集)を包括的に禁止する文言です。 「本ウェブサイトのコンテンツの全部または一部について、当社の事前の書面による許可なく、スクレイピング、データマイニング、ロボット、その他類似のデータ収集・抽出ツールを使用することを固く禁じます。」 「AI(人工知能)技術の開発またはトレーニングを目的とした、本サービス上のいかなるテキスト、画像、音声、動画、その他のデータの体系的な収集または利用を、明示的に禁止します。」

3. AIサービスがユーザーに提供する設定画面での表現

AIサービスのユーザーが、自身が入力した情報をAIの学習に利用されることを拒否するための、分かりやすい表現です。

  • ChatGPT(OpenAI)の設定画面
    「データコントロール」設定内の表現です。 Chat history & training
    Save new chats to your history and allow them to be used to improve our models. Unsaved chats will be deleted from our systems within 30 days.
    (訳:チャット履歴とトレーニング 新しいチャットを履歴に保存し、私たちのモデル改善に利用することを許可します。保存されないチャットは30日以内にシステムから削除されます。) この設定は、ON/OFFのトグルスイッチで表現されており、ユーザーは直感的に意思表示ができます。

これらの例が示すように、「オプトアウト」の具体的な表現は、技術的なコードから法的な宣言、日常的な設定メニューの文言まで多岐にわたります。共通しているのは、「私の著作物・データを、あなたのAIの学習には使わないでください」という明確な意思を、相手が認識できる形で伝えている点です。

robots.txtのファイルや、HTMLのメタタグによるオプトアウトの方法が設けられたきっかけや理由は分かりますか

Perplexity Proの回答

robots.txtファイルやHTMLのメタタグによるオプトアウトの方法が設けられた、あるいはAI学習拒否のために利用されるようになった背景には、インターネットの黎明期に生まれた仕組みを、現代のAIという新しい課題に対応させるという流れがあります。

そのきっかけと理由を、仕組みの成り立ちと現在の応用という2つの段階に分けて解説します。

1. 仕組みの成り立ち:robots.txtの誕生

robots.txtが生まれたのは1994年、まだインターネットの利用人口がごく僅かで、Googleも存在しなかった時代です。この仕組みが作られた当初の理由は、AI学習の拒否とは全く異なるものでした。

  • きっかけ:ウェブサーバーへの過剰な負荷
    当時のインターネットでは、検索エンジンなどの「クローラー(ロボット)」がウェブサイトを自動で巡回し始めましたが、これがウェブサーバーに過剰なアクセス(リクエスト)を送りつけ、サーバーがダウンしてしまうという問題が頻発しました。
  • 理由:負荷軽減とクロール制御
    この問題を解決するため、「ロボット除外プロトコル」としてrobots.txtが考案されました。その主な目的は以下の2つです。
    1. サーバーの負荷軽減: クローラーのアクセス頻度を制御し、サーバーが過負荷になるのを防ぐ。
    2. 不要なページのクロール回避: サイト運営者が、検索エンジンやユーザーにとって価値の低いページ(例:プログラムによる自動生成ページ、会員限定ページなど)をクローラーに巡回させないように指示する。

つまり、robots.txtは元々、サイト運営者がクローラーの動きを効率的に管理するための「交通整理」の役割として生まれました。

2. 現代的な応用:AI学習からのオプトアウト

近年の生成AIの急速な発展により、この古い仕組みが新たな役割を担うことになります。

  • きっかけ:クリエイターや企業の懸念
    AIがインターネット上のあらゆる情報を学習データとして収集するようになり、クリエイターや企業の間で「自分の作品やコンテンツが、許可なくAIに学習され、模倣されたり、事業機会を奪われたりするのではないか」という強い懸念が生まれました。
  • 理由:既存の仕組みの転用
    この懸念に対し、既存のrobots.txtやHTMLのメタタグを、AIクローラーのデータ収集を拒否する「オプトアウト」の意思表示手段として利用するというアイデアが生まれました。これは、新しく複雑な法制度や技術を待つまでもなく、サイト運営者が簡単かつ即座に意思表示できる現実的な方法だったからです。
    • 文化庁の見解: 日本の文化庁も、AI学習からのオプトアウト手段としてrobots.txtに言及しており、この方法が公的な議論の中でも一定の有効性を持つと認識されています。
    • 標準化への動き: さらに、2024年にはMicrosoftから、DisallowAITrainingといったAI学習拒否に特化した新しいルールをrobots.txtの標準仕様に加える草案が提出されるなど、この用途を正式なものにしようという動きも出てきています。

このように、robots.txtによるオプトアウトは、元々サーバーの負荷軽減という目的で生まれた仕組みを、現代の「AI学習を拒否したい」という新たなニーズに合わせて応用したものです。それは、インターネットの歴史の中で培われたシンプルなルールが、時代に合わせて新しい意味を持つようになった象徴的な例と言えるでしょう。

これまでは著作物は書籍であるとして質問していましたが、その他の著作物(絵画、動画、音楽、音声、プログラムなど)をデジタル化して、AIの学習に利用することが、著作権侵害に該当するかどうかを判断した例はありますか

Perplexity Proの回答

はい、書籍以外の著作物(画像、音楽、プログラムコードなど)をAIの学習に利用することの著作権上の問題についても、世界中で多くの訴訟や議論が行われています。書籍の事例と同様、単純に「著作権侵害に当たる/当たらない」と一律に判断されるわけではなく、国や地域、利用の態様によって判断が分かれています。

以下に、著作物の種類ごとに、AI学習利用をめぐる主な事例や争点をまとめます。

画像・イラスト

画像生成AIは、その学習データに著作権で保護された大量の画像が含まれていることが多く、最も訴訟が活発な分野の一つです。

  • 中国の「ウルトラマン」訴訟: 2022年、中国のAI企業が円谷プロダクションの許可なく「ウルトラマンティガ」に類似した画像を生成・配信したとして、著作権侵害が認定されました。これはAIの「出力」が元の作品に類似している場合の典型例です。
  • Getty Images vs. Stability AI: ストックフォト大手Getty Imagesは、画像生成AI「Stable Diffusion」が自社の画像を無断で学習し、結果としてGettyのロゴが入った画像を生成することがあると主張して提訴しました。この訴訟では、AIが画像の特徴を「学習」する行為そのものが著作権侵害に当たるかどうかが大きな争点となっています。
  • 米国アーティストによる集団訴訟: 複数のアーティストが、Stable DiffusionやMidjourneyなどの画像生成AIが自分たちの作品を無断で学習データとして利用し、作風を模倣した画像を生成することで、仕事を奪っているとして集団訴訟を提起しました。裁判所は、AI開発者がプロンプト入力によって著作権侵害を誘発するような構造を作っていれば、「誘発的な著作権侵害」の責任を負う可能性があると示唆しています。

音楽・音声

音楽の歌詞やメロディ、個人の声などがAIの学習対象となり、訴訟に発展しています。

  • 音楽出版社 vs. Anthropic: ユニバーサルミュージックなどの音楽出版社は、AI企業Anthropicが、ビヨンセやケイティ・ペリーなど数百曲の楽曲の歌詞を無断でAI「Claude」に学習させたと提訴しました。ユーザーが歌詞を要求すると、Claudeがほぼそのままの歌詞を出力することから、著作権侵害が指摘されました。
  • 声優による訴訟: 米国の声優2名が、AIスタートアップ企業Lovoに自身の声を無断で録音・複製され、合成音声として販売されたとして訴訟を提起しました。これは声の商業的価値を損なうものであり、複製権や同一性保持権の侵害が問われています。

プログラムコード

オープンソースで公開されているプログラムコードの学習利用も、ライセンス違反をめぐり争われています。

  • GitHub Copilot集団訴訟: AIがプログラムコードを生成するツール「Copilot」が、GPLなどのライセンスで公開されているオープンソースコードを無断学習し、ライセンス条件を無視したコードを出力しているとして、開発者らがGitHubを訴えました。この判決次第では、AIがオープンソースコードを学習する際、元のライセンス条件を遵守する義務が生じる可能性があり、ソフトウェア開発の世界に大きな影響を与えると見られています。

ニュース記事

大手報道機関も、自社の記事が無断で学習データとして利用され、事業機会を奪われているとしてAI企業を提訴しています。

  • ニューヨーク・タイムズ vs. OpenAI: NYタイムズは、ChatGPTが自社の記事を大量に無断学習し、記事の要約などを提供することで、同社の購読料や広告収入を奪っているとして、数十億ドル規模の損害賠償を求める訴訟を提起しました。

日本の法解釈

日本の著作権法第30条の4は、これらの著作物についても、AIによる「情報解析」目的であれば、原則として許諾なく利用できると解釈されています。ただし、これはあくまでAIの「学習(入力)」段階の話であり、AIの「生成(出力)」物が元の著作物と類似している場合は、別途著作権侵害が問題となります。

このように、書籍以外の多様な著作物についても、AIの学習利用をめぐる法的な判断はまだ流動的であり、世界中で重要な判例が形成されつつある段階です。

AIの「生成(出力)」物が元の著作物と類似しているかを調べ、著作権侵害を判断した例はありますか

Perplexity Proの回答

はい、AIの「生成(出力)」物が元の著作物と類似しているかを調べ、著作権侵害にあたるかどうかを実際に判断した司法判断の例や、現在進行中の訴訟は複数存在します。

著作権侵害が成立するためには、一般的に以下の2つの要件を満たす必要があります1

  1. 類似性: AI生成物が、既存の著作物の「表現上の本質的な特徴」を直接感じ取れるほど似ていること。
  2. 依拠性: AI生成物が、既存の著作物をもとに(依拠して)作成されたこと。

この2つの要件に基づき、具体的な事例を見ていきましょう。

著作権侵害が認定された事例

  • 中国の「ウルトラマン」訴訟
    2022年、中国の裁判所は、AIサービス事業者が円谷プロダクションの許可なく「ウルトラマンティガ」に酷似した画像を生成・配信した行為について、著作権侵害(公衆送信権の侵害)を認定しました。被告企業に対し、損害賠償金の支払いと、関連画像の生成・配信の停止を命じました。これは、AIの出力物が既存の著作物と極めて類似しており、依拠性も明らかであると判断された、世界で初めての画期的な判決とされています。

著作権侵害が争われている進行中の主な訴訟

多くの訴訟はまだ判決に至っていませんが、裁判の過程で「類似性」と「依拠性」がどのように判断されるかの方向性が示されています。

  • アーティスト vs. 画像生成AI(Andersen v. Stability AIなど)
    複数のアーティストが、画像生成AI「Stable Diffusion」などが自身の著作物を無断学習し、作風を模倣した類似画像を生成しているとして提訴しました。裁判所は、原告アーティストが「AI生成物が自身の特定の作品と十分に類似している」ことを具体的に証明できれば、著作権侵害の主張は認められる可能性があるという見解を示しています。一般的な作風の類似だけでは不十分で、個々の作品との「実質的な類似性」が問われます。
  • 作家 vs. Meta社(Kadrey v. Meta Platforms)
    作家リチャード・カドリー氏が、Meta社のAIが自身の文学作品を複製するようなテキストを生成したとして提訴しました。この訴訟では、AIが出力したテキストが、元の作品とどの程度類似しているかが争点となっています。Meta側は「偶然の一致」あるいはフェアユースに当たる「変容的利用」であると主張していますが、裁判所がこの類似性をどう評価するかが注目されています。
  • GitHub Copilot訴訟
    AIがプログラムコードを生成する「Copilot」が、元の著作物であるオープンソースコードの一部を認識できる形で出力した例が報告されています。これも、出力物が元の著作物と類似しているとして、著作権侵害の可能性が指摘されています。

日本における判断の考え方

日本の文化庁も「AIと著作権に関する考え方について」の中で、AI生成物の著作権侵害について以下のような考え方を示しています。

  • 判断基準は従来と同じ: AIを利用して生成されたものであっても、著作権侵害の判断基準(類似性+依拠性)は、人間が創作した場合と変わりません。
  • 依拠性の判断が複雑化:
    • 利用者が元ネタを知っている場合: AI利用者が特定のキャラクター名(例:「ピカチュウ」)をプロンプトに入力して類似画像を生成させ、それをSNSに投稿した場合などは、利用者に依拠性が認められ、著作権侵害となる可能性が高いです。
    • 利用者は元ネタを知らないが、AIは学習している場合: 利用者が元ネタを知らなくても、AIが学習データとしてその著作物を利用していれば、客観的に「依拠性があった」と推認されるのが原則です。ただし、AI開発者が「学習データと類似した表現が出力されないようフィルタリングしている」といった技術的な対策を証明できれば、依拠性が否定される可能性もあります。
    • 利用者もAIも元ネタを知らない場合: これは「偶然の一致」と見なされ、依拠性が認められないため、著作権侵害にはなりません。

このように、AIの出力物が元の著作物と類似している場合の著作権侵害の判断は、具体的な事例ごとに「類似性」と「依拠性」を詳細に検討して行われます。中国の「ウルトラマン」訴訟は既に判決が出た明確な例ですが、多くの訴訟はまだ進行中であり、今後の司法判断が待たれる状況です。

具体的なケースでAI生成物と既存作品の類似性をどう証明したか

Perplexity Proの回答

AI生成物と既存作品の類似性を具体的にどのように証明したかについては、確立された判例がまだ少ないため、現在進行中の訴訟における主張立証の方法や、各国の法制度・ガイドラインで示されている考え方が参考になります。

証明の核心は、著作権侵害の2つの要件である「類似性」と「依拠性」を、具体的な証拠をもって示すことです。

「類似性」の証明方法:表現上の本質的な特徴が共通していることを示す

「類似性」とは、アイデアやありふれた表現が似ていることではなく、AI生成物が元の著作物の「表現上の本質的な特徴を直接感じ取れる」ほど似ていることを意味します。これを証明するために、以下のような具体的な比較が行われます。

  • 作品の並列比較:
    最も直接的な方法は、元の作品とAI生成物を並べて提示し、裁判官や陪審員などの第三者が視覚的・聴覚的に比較できるようにすることです。中国の「ウルトラマン」訴訟では、円谷プロの公式ウルトラマン画像と、AIが生成した画像を比較し、その酷似性を主張したと考えられます。
  • 具体的な共通点の指摘:
    風景画であれば「構図、色彩、対象物の配置」、イラストであれば「キャラクターの顔の輪郭、目や手足の描き方といった特徴的な表現」など、どの部分が具体的に共通しているかを詳細に指摘します。単に「雰囲気が似ている」だけでは不十分で、「創作的表現」の共通性が求められます。
  • 専門家の意見:
    美術、音楽、文学などの専門家に鑑定を依頼し、「表現上の本質的な特徴」が共通しているという専門的見地からの意見書を証拠として提出することもあります。

「依拠性」の証明方法:元作品を参考にしたことを示す

「依拠性」とは、AI生成物が元の作品をもとにして作られたことを指します。AIの学習プロセスはブラックボックス化していることが多いため、依拠性の証明は複雑ですが、以下のような間接的な証拠を積み上げて「推認させる」アプローチが取られます。

  • 高度な類似性の存在:
    2つの作品が偶然とは思えないほど酷似している場合、「それは元の作品に依拠しなければ生まれ得ない」として、類似性の高さ自体が依拠性を強く推認させる証拠となります。
  • プロンプト(指示内容)の開示:
    AI利用者が「(既存作品のタイトル)風に」「(特定のアーティスト名)のスタイルで」といったプロンプトを入力していた場合、それは元の作品を認識し、意図的に模倣しようとした強力な証拠となります。訴訟においては、このプロンプトの開示が求められることがあります。
  • Image to Image機能の利用:
    AI利用者が、元の作品の画像そのものをAIに入力して類似画像を生成する「Image to Image」機能を使用した場合、依拠性は明白であると判断されやすくなります。
  • 元作品へのアクセス可能性:
    AI利用者や開発者が、元の作品に触れる機会があったこと(例えば、広く知られた有名な作品であることなど)を証明することも、依拠性を裏付ける状況証拠の一つとなります。

具体的な訴訟での動き

  • 米国アーティストによる集団訴訟(Andersen v. Stability AIなど):
    この訴訟では、原告アーティストたちは、自身の作品とAI生成物を並べて比較し、その「実質的な類似性(substantial similarity)」を具体的に示すよう裁判所から求められています。当初の訴状ではこの点の証明が不十分とされましたが、修正後の訴状では、より詳細な比較例を含めることで、主張の補強を図っています。
  • GitHub Copilot訴訟:
    このケースでは、Copilotが出力したプログラムコードに、元のオープンソースコードに含まれていたライセンス表記やコメントがそのまま残っていた例が報告されており、これが依拠性の直接的な証拠として指摘されています。

このように、AI生成物の類似性の証明は、従来の著作権侵害訴訟と同様に、作品同士の具体的な比較分析が基本となります。それに加え、AI特有の「プロンプト」や「学習データ」といった要素が、依拠性を証明する上で新たな争点となっています。

AI学習データに既存作品が含まれていたことの立証は必要だったか

Perplexity Proの回答

いいえ、必ずしも必要ではありません。日本の著作権侵害訴訟において、権利者側が「AI学習データに既存作品が含まれていたこと」を直接的に証明することは必須ではありません。なぜなら、他の証拠からその事実を「推認させる」ことが可能だからです。

文化庁が公表した「AIと著作権に関する考え方」や法専門家の見解によると、AI生成物が著作権を侵害していると主張する(依拠性を立証する)ために、権利者側は以下のような方法を取ることができます。

直接的な証明が不要な理由

AIの学習データは、AI開発事業者が公表しない限り、外部から知ることは極めて困難です。そのため、権利者に学習データの内容を直接証明するよう要求することは、事実上、権利行使を不可能にしてしまう恐れがあります。

そこで、日本の民事訴訟では、直接的な証拠がなくても、間接的な事実(間接事実)を積み重ねて主要な事実を証明する「推認」という方法が認められています。

学習データに含まれていたことを「推認」させるための立証方法

権利者側は、AI学習データに自らの作品が含まれていたことを直接証明する代わりに、以下の点を立証することで、裁判所に「依拠性があった」と推認させることができます。

  1. AI生成物と既存作品との「高度な類似性」:
    偶然の一致とは考えにくいほど、AI生成物が元の作品の創作的表現と酷似していることを示します。これが最も強力な間接証拠となります。
  2. 既存作品へのアクセス可能性:
    AI利用者が元の作品を知っていた、あるいは容易にアクセスできる状況にあったことを証明します。例えば、作品が広く知られている、特定の固有名詞(作品名やキャラクター名)をプロンプトとして入力した、などの事実がこれにあたります。

これらの点を立証できれば、裁判所は「AI学習データに当該作品が含まれており、それに基づいて生成された」と推認する可能性が高まります。

AI開発者側の反論

権利者側によって依拠性が推認された場合、今度はAI開発者や利用者側がそれを覆すための反論を行うことになります。例えば、以下のような主張・立証が考えられます。

  • AIの学習・生成プロセスにおいて、元の作品の創作的な表現が出力されないような技術的措置(フィルタリングなど)を講じていること。

権利者としては、直接証明を試みる手段も存在します。民事訴訟法上の「文書提出命令」などの手続きを通じて、AI開発事業者に学習データの開示を求めることができます。しかし、開発事業者が企業秘密などを理由に開示を拒否することも考えられ、必ずしも成功するとは限りません。

訴訟における具体的な手段

結論として、AI学習データに既存作品が含まれていたことの直接的な立証は、著作権侵害を主張する上で必須の要件ではありません。権利者は、生成物との高度な類似性などを証明することで、依拠性を間接的に立証することが可能です。

目次