在《華爾街日報》的獨家訪談中,OpenAI的首席技術官米拉·穆拉提(Mira Murati)談到了公司的Sora文本轉視頻模型,她暗示該模型可能會在幾個月內向公眾推出。示範中展示的片段既令人印象深刻又可愛,讓觀眾感到既好奇又愉悅。
然而,隨著穆拉提對Sora的訓練數據被提問,對話氣氛出現轉折。她表示:“我們使用了公開可得和經授權的數據”,但對於是否包含YouTube、Facebook或Instagram的內容,卻難以明確回答。雖然她承認使用了Shutterstock的內容,但對其他平台的猶豫引發了質疑。她對於YouTube的回答是:“我其實不確定”,而對於Facebook和Instagram,她模糊地表示“可能有”公開可得的視頻,但並未確認具體內容。
這種模糊性可能令OpenAI的公關團隊不悅,因為目前仍有與版權相關的訴訟,其中包括《紐約時報》對其提出的訴訟。關於訓練數據的細節對很多利益相關者——作家、攝影師和藝術家——而言至關重要,他們希望能清楚了解用於開發如Sora這樣模型的內容。據《資訊》報導,OpenAI被指利用來自各種在線來源的數據,這使公司行為受到更嚴格的審視。
訓練數據的影響不僅限於法律問題,還涉及信任和透明度。如果OpenAI是基於被認為是“公開可得”的內容進行訓練,那麼如果較廣泛的公眾並不知情,將會怎樣?此外,像Google和Meta等其他科技巨頭也依賴其擁有的平台來利用公開分享的內容。儘管這在法律上可能是允許的,但近期聯邦貿易委員會對默默更改服務條款的警告,引發了對公眾認知的質疑。
對於生成式人工智能而言,訓練數據的討論是基礎性話題,潛在的震撼不僅存在於法庭上,更在於公眾的觀感。正如之前所提到的,依賴多樣化數據集來訓練AI模型的問題影響到那些對這些數據集做出創作貢獻的人。
歷史上,數據收集通常基於互惠互利的原則。用戶提供數據以提升體驗,然而這種交換卻往往使數據經紀人獲益不均。這一動態在生成式AI出現後發生變化;許多人將他們公開分享的作品的使用視為剝削,對就業和創意構成威脅。
專家建議應建立良好的訓練數據集,以提升模型性能,強調其對研究的重要性,而非商業開發。然而,隨著人們對其內容如何被用於訓練以盈利為目的模型的認知加深,問題隨之而來:如果他們得知自己的視頻貢獻於商業AI產出,接受度會否降低?
隨著環境的演變,OpenAI、Google和Meta等公司可能會利用其早期優勢。然而,持續的AI訓練數據挑戰可能導致長期影響,將今天的優勢轉變為一種複雜的交易。