ウォール・ストリート・ジャーナルとの独占インタビューで、OpenAIのCTOミラ・ムラティ氏は、同社のSoraテキストから動画へのモデルについて語りました。彼女は、この技術が数ヶ月内に一般公開される可能性があると示唆しました。デモでは、印象的かつ愛らしいクリップが紹介され、観客は興味を持ちながらも楽しんでいました。
しかし、Soraのトレーニングデータについて質問されると、会話は変わりました。ムラティ氏は、「公開されているライセンスデータを使用しました」と述べましたが、YouTube、Facebook、Instagramのコンテンツについては不明瞭でした。Shutterstockのコンテンツを使用したことは認めましたが、他のプラットフォームについての不確かさが疑問を呼びました。「実はよくわからない」とYouTubeについて言及し、FacebookやInstagramについては「公開されている動画が“あるかもしれない”」と曖昧な表現しかできませんでした。
この曖昧さは、おそらくOpenAIの広報チームにとって好ましくなかったでしょう。特に、ニューヨーク・タイムズからの著作権関連の訴訟が進行中であるため、トレーニングデータの詳細は、作家や写真家、アーティストなど多くの関係者にとって重要です。『The Information』の報道によると、OpenAIは様々なオンラインソースからデータを利用しており、その手法への監視が強まっています。
トレーニングデータの影響は法的問題を超えて、信頼性と透明性に関わります。「公開されている」と見なされるコンテンツで訓練された場合、一般の人々がそのことを知らないとどうなるのでしょうか。さらには、GoogleやMetaなどの他のテクノロジー企業も、自社が所有するプラットフォームからの公開共有コンテンツを活用しています。これが法的に許可されているとしても、最近のFTCからの警告は、サービス利用規約の変更に関して公共の認識について疑問を投げかけています。
トレーニングデータに関する議論は、生成型AIの基盤を形成しており、法廷だけでなく公共の認識においても問題が浮上しています。多様なデータセットに基づいてAIモデルを訓練することは、このデータセットに貢献するクリエイターにとって重要な懸念です。
歴史的に、マーケティングのためのデータ収集は、ユーザーがデータを提供し、より良い体験を得るという相互関係で成り立ってきましたが、この関係はデータブローカーに不均等に利益をもたらすことが多いです。このダイナミクスは生成型AIにおいて変化し、多くの人が自らの公開共有作品の使用を搾取的と見なすようになり、雇用や創造性に対する脅威を感じています。
専門家は、商業的搾取ではなく研究のためのよくキュレーションされたトレーニングデータセットの重要性を強調しています。しかし、人々が自身のコンテンツが営利目的のモデルの訓練に使用されていることを知るにつれて、果たして受け入れが減少するのかという疑問が残ります。
変化が進む中、OpenAI、Google、Metaのような企業は早期の利点を活かす可能性があります。しかし、AIトレーニングデータを巡る課題は長期的な影響をもたらし、今日の利点を複雑な利益関係に転じる可能性があるでしょう。