OpenAI 與 Meta 如何利用 YouTube 影片進行 AI 訓練:新興產業趨勢洞察

隨著人工智慧(AI)技術的快速進步,數據已成為推動AI模型發展的重要驅動力。然而,《華爾街日報》的最新報告突顯了AI公司在獲取高品質訓練數據時面臨的前所未有挑戰。今天,《紐約時報》進一步探討了這些公司如何應對這一複雜問題的策略,尤其是AI著作權法的複雜性。

作為AI領域的領導者,OpenAI對訓練數據的需求尤為迫切。根據報導,該公司利用其Whisper音頻轉錄技術,已轉錄超過一百萬小時的YouTube視頻,以開發其先進的GPT-4大型語言模型。OpenAI還聚合了其他多種數據資源,包括GitHub的代碼、棋步數據庫和Quizlet的教育內容。

這一做法引發了法律爭議。儘管OpenAI聲稱其數據使用符合公正使用的原則,《紐約時報》揭示OpenAI總裁Greg Brockman親自參與數據收集,進一步複雜化了著作權問題。

在接受《The Verge》訪問時,OpenAI發言人表示,公司為每個模型組織獨特的數據集,以增強對世界的理解並保持全球的競爭性研究。發言人還提到,OpenAI正在探索合成數據的生成,以減少對外部數據源的依賴。

谷歌對OpenAI的做法表示擔憂,發言人通過電子郵件指出,該公司已觀察到有關OpenAI活動的未經證實的報告,並強調谷歌的robots.txt文件和服務條款禁止未經授權的抓取或下載YouTube內容。

YouTube首席執行官Neal Mohan在最近的一次訪談中表示,儘管沒有直接證據顯示OpenAI使用YouTube視頻訓練Sora模型,但這樣的行為將違反YouTube的服務條款。

同時,Meta也在面臨數據獲取的挑戰。根據《紐約時報》報導,Meta的AI團隊正在努力追趕OpenAI,並考慮涉及未經授權使用受著作權保護作品的情境。為了擴大其數據集,Meta審查了大量英語書籍、文章、詩歌和新聞報導,討論為書籍授權支付或直接收購大型出版商的可能性。

這些發展凸顯了AI行業在數據收集和使用中面臨的法律和道德挑戰。隨著技術的進步,一個迫切的問題浮現:AI模型如何在尊重著作權保護的同時進化?未來,AI公司與監管機構必須合作,建立更清晰、公正的規範,促進AI技術的健康和可持續發展。

Most people like

Find AI tools in YBX