人工知能(AI)技術が急速に進化する中、データはAIモデルの開発において重要な要素となっています。しかし、最近のウォール・ストリート・ジャーナルの報告によれば、AI企業が高品質なトレーニングデータを取得する際に直面している前例のない課題が浮かび上がっています。今日、ニューヨーク・タイムズは、特にAI著作権法の複雑さに焦点を当て、これらの企業がこの問題を解決するために用いている戦略について詳しく調査しています。
AI業界のリーダーであるOpenAIは、トレーニングデータへのニーズが特に高まっています。同社は、Whisperオーディオ転写技術を用いて、100万時間以上のYouTube動画を文字起こしし、高度なGPT-4大規模言語モデルを開発したと報じられています。また、GitHubからのコードやチェス移動データベース、Quizletの教育コンテンツなど、さまざまなデータリソースを集約しています。
このアプローチは法的な論争を引き起こしています。OpenAIは自社のデータ利用がフェアユースの原則に則っていると主張していますが、ニューヨーク・タイムズの報道によると、OpenAIの社長グレッグ・ブロックマンがデータ収集プロセスに直接関与していたことが、著作権問題をさらに複雑にしています。
The Vergeとのインタビューで、OpenAIの広報担当者は、各モデルに特有のデータセットを構築することで、世界の理解を深め、グローバルな競争力を維持することを目指していると述べました。また、外部データソースへの依存を軽減するために、合成データの生成を検討していることも明らかにしました。
一方で、GoogleはOpenAIの行動に懸念を示しています。Googleの広報担当者はメールで、OpenAIの活動に関する確認されていない報告があるとし、Googleのrobots.txtファイルやサービス利用規約がYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止していることを強調しました。
YouTubeのCEO、ニール・モハンは最近のインタビューで、OpenAIがソラモデルのトレーニングにYouTube動画を使用したという直接の証拠はないものの、そのような行為はYouTubeのサービス利用規約に違反するだろうと示唆しました。
同時に、Metaもデータの入手に関する課題に取り組んでいます。ニューヨーク・タイムズによると、MetaのAIチームがOpenAIに追いつくために、著作権のある作品の無許可使用に関するシナリオを検討しているとのことです。Metaは、データセットを拡大するために、英語の書籍、エッセイ、詩、ニュース記事を広範囲にわたってレビューし、本のライセンスや大手出版社からの直接購入に関する可能性を議論しています。
これらの動向は、AI業界がデータ収集と利用において直面する法的および倫理的な課題を浮き彫りにしています。技術が進化する中で、AIモデルが著作権保護を尊重しつつ進化するためにはどうすればよいのでしょうか。今後、AI企業と規制当局が協力して、AI技術の健全で持続可能な発展を促進するための明確で公平な規制を確立することが不可欠です。