最近、Proof Newsの調査によると、世界の複数の大手テクノロジー企業が、非営利団体EleutherAIが作成した173,000以上のYouTube動画のトランスクリプトデータセットを無断で利用してAIモデルを訓練していることが明らかになりました。このデータセットは、48,000を超えるチャンネルから収集されたトランスクリプトが含まれており、Apple、NVIDIA、Anthropicなどの企業が使用しています。この調査は、AI技術において、コンテンツクリエイターの同意や公正な報酬なしに基礎データセットが使用されているという重要な問題を浮き彫りにしています。
このデータセットにはYouTubeの実際の動画や画像は含まれていないものの、Marques BrownleeやMrBeastといった著名なクリエイターのトランスクリプト、またThe New York Times、BBC、ABCニュースなどの主要なメディアの内容も含まれています。Engadgetの報道によれば、Marques BrownleeはソーシャルメディアXで「Appleは、YouTube動画から抽出した大量のトランスクリプトテキストを含むAIデータを複数の企業から調達している」と懸念を表明しています。「これは長年の問題です」と彼は強調しました。
GoogleのスポークスパーソンはEngadgetに対し、YouTubeのCEOニール・モハンの発言が依然として重要であり、YouTubeデータをAIモデルの訓練に使用することはプラットフォームの利用規約に違反するとの立場を改めて示しました。Apple、NVIDIA、Anthropic、およびEleutherAIは、Engadgetの問い合わせには応じていません。
AI企業のモデル訓練に使用されるデータの透明性の欠如は、依然として重大な懸念です。最近、アーティストや写真家たちは、Appleの新しい生成AI技術「Apple Intelligence」のための訓練データの出所を明らかにしないとして、Appleを批判しました。この技術は数百万のAppleデバイスに導入される予定です。
YouTubeは最大のオンラインビデオプラットフォームとして、トランスクリプトデータだけでなく、音声および動画コンテンツも提供しており、AI訓練にとって非常に貴重なリソースとなっています。今年初め、OpenAIのCTOミラ・ムラーティは、Wall Street JournalのインタビューでAIツール「Sora」の訓練にYouTube動画が使用されたかどうかを問われた際、使用されたデータは公開されているかライセンスに基づくものであると主張し、明確に回答を避けました。AlphabetのCEOサンダー・ピチャイもまた、YouTubeデータでAIモデルを訓練することはプラットフォームの利用規約に違反すると述べています。
特定のチャンネルや動画のトランスクリプトがこのデータセットに含まれているかを確認するには、Proof Newsのクエリツールをご利用ください。