OpenAI的Sora：深入剖析其創新背後的「數據細節」

Home AI新聞 OpenAI的Sora：深入剖析其創新背後的「數據細節」

在《華爾街日報》的獨家訪談中，OpenAI的首席技術官米拉·穆拉提（Mira Murati）談到了公司的Sora文本轉視頻模型，她暗示該模型可能會在幾個月內向公眾推出。示範中展示的片段既令人印象深刻又可愛，讓觀眾感到既好奇又愉悅。

然而，隨著穆拉提對Sora的訓練數據被提問，對話氣氛出現轉折。她表示：“我們使用了公開可得和經授權的數據”，但對於是否包含YouTube、Facebook或Instagram的內容，卻難以明確回答。雖然她承認使用了Shutterstock的內容，但對其他平台的猶豫引發了質疑。她對於YouTube的回答是：“我其實不確定”，而對於Facebook和Instagram，她模糊地表示“可能有”公開可得的視頻，但並未確認具體內容。

這種模糊性可能令OpenAI的公關團隊不悅，因為目前仍有與版權相關的訴訟，其中包括《紐約時報》對其提出的訴訟。關於訓練數據的細節對很多利益相關者——作家、攝影師和藝術家——而言至關重要，他們希望能清楚了解用於開發如Sora這樣模型的內容。據《資訊》報導，OpenAI被指利用來自各種在線來源的數據，這使公司行為受到更嚴格的審視。

訓練數據的影響不僅限於法律問題，還涉及信任和透明度。如果OpenAI是基於被認為是“公開可得”的內容進行訓練，那麼如果較廣泛的公眾並不知情，將會怎樣？此外，像Google和Meta等其他科技巨頭也依賴其擁有的平台來利用公開分享的內容。儘管這在法律上可能是允許的，但近期聯邦貿易委員會對默默更改服務條款的警告，引發了對公眾認知的質疑。

對於生成式人工智能而言，訓練數據的討論是基礎性話題，潛在的震撼不僅存在於法庭上，更在於公眾的觀感。正如之前所提到的，依賴多樣化數據集來訓練AI模型的問題影響到那些對這些數據集做出創作貢獻的人。

歷史上，數據收集通常基於互惠互利的原則。用戶提供數據以提升體驗，然而這種交換卻往往使數據經紀人獲益不均。這一動態在生成式AI出現後發生變化；許多人將他們公開分享的作品的使用視為剝削，對就業和創意構成威脅。

專家建議應建立良好的訓練數據集，以提升模型性能，強調其對研究的重要性，而非商業開發。然而，隨著人們對其內容如何被用於訓練以盈利為目的模型的認知加深，問題隨之而來：如果他們得知自己的視頻貢獻於商業AI產出，接受度會否降低？

隨著環境的演變，OpenAI、Google和Meta等公司可能會利用其早期優勢。然而，持續的AI訓練數據挑戰可能導致長期影響，將今天的優勢轉變為一種複雜的交易。

Snowflake 與 Landing AI 攜手應對計算機視覺中的非結構化數據挑戰

Invoke推出先進工作流程和AI工具，助力遊戲開發者

Most people like

LTX Studio

726.9K

用我們的 AI 驅動電影製作平台徹底改變您的故事講述，讓您完全掌控創意。

人工智慧驅動 Text to Video

CheatGPT

60K

CheatGPT 是一款創新的 AI 學習工具，旨在為學生提供即時答案和有價值的考試協助。無論您面對複雜的科目或準備考試，CheatGPT 都能為您提供所需的支持，有效提升您的學習體驗。

CheatGPT AI Education Assistant

WinningHunter

554.5K

輕鬆發現高效能的代發產品，儘在 WinningHunter 的頂級廣告間諜工具。分析 Facebook 和 TikTok 廣告，監控商店銷售，並運用人工智慧技術創作引人注目的廣告文案。利用 WinningHunter 強大的功能組合，提升您的代發成功。

產品研究 AI Product Description Generator

Extrapolate

61K

探索 Extrapolate 應用程式如何運用先進的 AI 技術，為您提供關於衰老過程的深刻見解，同時確保您的隱私並提供完全免費的體驗。

人工智慧 AI Profile Picture Generator

Find AI tools in YBX