Proof Newsの調査によると、Apple、NVIDIA、Anthropicを含む大手テクノロジー企業が、173,000本以上のYouTube動画からのトランスクリプトを含むデータセットを許可なく使用してAIモデルを訓練していたことが明らかになりました。このデータセットは、非営利組織EleutherAIによって収集され、Marques BrownleeやMrBeastなどの著名なクリエイターを含む48,000人以上のクリエイターのチャンネルからのトランスクリプトが含まれています。主要なニュース組織、例えばニューヨークタイムズ、BBC、ABCニュースなども含まれています。
この調査は、AI開発における深刻な現実を浮き彫りにしています。つまり、多くの技術がクリエイターの同意や報酬なしに抽出されたデータに依存しているということです。このデータセットには動画や画像は含まれていないものの、影響力のあるコンテンツクリエイターからの重要な貢献が反映されています。
Marques BrownleeはSNS上で懸念を表明し、Appleが様々な企業からデータを調達していることを指摘しました。その中には、彼自身のYouTube動画からトランスクリプトを取得した企業も含まれていると言います。彼は「これは長い間続く進化する問題になるだろう」と述べ、AIにおけるデータ使用の複雑な倫理的課題を認識しました。
Googleの広報担当者は、YouTubeのCEO Neal MohanがYouTubeデータをAI訓練に利用する企業によるプラットフォームの利用規約違反に関する発言が依然として有効であることを再確認しました。Apple、NVIDIA、Anthropic、EleutherAIへのコメント要請には応答がありませんでした。
AI企業が使用する訓練データの透明性は依然として重要な問題です。最近、Appleは、ボリュームAI機能「Apple Intelligence」の訓練データの出所を開示していないことで、アーティストや写真家から批判を受けました。これに対し、Appleは、研究目的のみで作成されたOpenELMモデルがAIや機械学習の能力を支えていないことを明らかにしました。同社は、AIモデルが「ライセンス済みデータ」と公に利用可能な情報に基づいて訓練されていると主張しています。
YouTubeは、世界最大の動画リポジトリとして、トランスクリプトや音声、動画、画像を豊富に提供しており、AIモデルの開発において非常に魅力的なリソースです。今年初め、OpenAIのCTO Mira Muratiは、OpenAIの次世代AI動画生成ツール「Sora」の訓練にYouTube動画が使用されたかどうかについての質問を避け、データは公に入手可能またはライセンスされたものであると述べました。
自身のYouTube動画やお気に入りのチャンネルの字幕がこのデータセットに含まれているかどうかを確認したい方は、Proof Newsの照会ツールを利用してください。