業界内で懸念すべきトレンドが浮上しています。NVIDIAがAIトレーニングのために大量の著作権コンテンツを収集しているとの報道がありました。404メディアのサマンサ・コールは、月曜日にこのテック大手(時価総額2.4兆ドル)が、商業用AIプロジェクトを推進するために、従業員にYouTubeやNetflixから動画をダウンロードするよう指示していると報じました。この行動は、不安定なAI市場で優位性を争うテクノロジー企業の間で広がる「急速に動き、物事を壊す」という考え方を反映しています。
NVIDIAのトレーニング活動は、Omniverse 3Dワールドジェネレーターや自動運転車システム、「デジタルヒューマン」技術のモデル作成に焦点を当てているとされています。広報担当者は、同社の研究は著作権法に従っており、知的財産(IP)法律は特定の表現のみを保護するもので、事実やアイデア、データまでは含まれないと主張しました。彼らはこの慣行を、さまざまな情報源から学び、新たな表現を作り出す個人の権利に例えました。
しかし、YouTubeは異なる見解を示しています。広報のジャック・マロンは、CEOのニール・モハンが、AIトレーニングのためにYouTube動画を使用することは、明らかにプラットフォームの利用規約に違反すると述べた4月のブルームバーグの記事を引用しました。この声明は、OpenAIが無断でYouTubeのコンテンツを使用してSoraというテキストから動画への生成器をトレーニングしたという事例に続くものです。同様に、Runway AIも似たような行動をとっていたとの報道があります。
倫理的および法的な懸念を表明したNVIDIAの従業員には、経営陣から「このプロジェクトは最高レベルで承認された」と伝えられたとされています。研究担当副社長のミン・ユー・リューは「これは経営陣の決定です」と強調し、「全てのデータに対する傘下の承認を得ています」と確認しました。他の社員はこの慣行を「オープンな法的問題」と表現し、後で対処する予定であるとの見解を示しました。
この状況は、ユーザーのプライバシーを無視して躍進したFacebook(Meta)を彷彿とさせます。NVIDIAはYouTubeやNetflixのコンテンツに加え、MovieNetや内部のビデオゲームライブラリ、GitHubリポジトリ(WebVidなど、警告を受けて削除されたもの)、および1,000万のYouTube動画IDを含むInternVid-10Mといったデータセットを使用するよう指示していたとされています。
NVIDIAが利用した一部のコンテンツは、学術的または非商業的な利用に制限されていました。たとえば、1.3億本のYouTube動画を収録したHD-VG-130Mライブラリは、使用ライセンスが学術研究に限定されています。それにもかかわらず、NVIDIAはこれらの利用条件に関する懸念を退け、データは商業用AIプロジェクトにとって自由に利用可能であると主張したとされています。
NVIDIAは、YouTubeによる検出を避けるために、IPアドレスが回転する仮想マシン(VM)を使用してダウンロードを行っていたとされています。ある従業員がサードパーティのIPアドレス更新ツールを利用する提案をしたところ、別の従業員は「仮想マシンのインスタンスを再起動すれば新しい公開IPが得られる」と応じ、検出は問題ではないとの認識を示しました。