一項由Proof News進行的調查揭示,若干大型科技公司,包括Apple、NVIDIA和Anthropic,使用了一個包含超過173,000段YouTube視頻轉錄文本的數據集來訓練其AI模型,卻未獲得創作者的許可。這個數據集由非營利組織EleutherAI編纂,涵蓋超過48,000位創作者的頻道,包括知名人士Marques Brownlee和MrBeast,還有主要新聞機構如《紐約時報》、《BBC》和《ABC新聞》。
這項調查凸顯了AI發展中的一個問題:科技的許多部分依賴於未經創作者同意或賠償的數據提取。儘管該數據集不包含視頻或圖像,卻仍然納入了具有影響力的內容創作者的重大貢獻。
Marques Brownlee在社交媒體上表達了擔憂,指出Apple從多家公司獲取數據,其中一家公司抓取了包括他在內的YouTube視頻轉錄文本。他表示:“這將是一個長期演變的問題”,承認了AI數據使用周圍的複雜倫理環境。
Google的一位發言人重申,YouTube首席執行官Neal Mohan關於公司利用YouTube數據進行AI訓練違反平台服務條款的聲明依然成立。對Apple、NVIDIA、Anthropic和EleutherAI的評論請求皆無回應。
AI公司使用的訓練數據的透明性依然是一個難以解決的問題。最近,Apple因未披露其即將推出的生成式AI功能Apple Intelligence的訓練數據來源而遭到藝術家和攝影師的批評。作為回應,Apple澄清,其專為研究而創建的OpenELM模型並不驅動其AI或機器學習能力。該公司聲稱其AI模型是基於“已授權的數據”和網絡爬蟲收集的公開資訊進行訓練的。
YouTube作為全球最大的視頻資料庫,提供了豐富的轉錄文本、音頻、視頻和圖像,成為發展AI模型的吸引資源。今年早些時候,OpenAI首席技術官Mira Murati在被問及YouTube視頻是否用於訓練Sora(OpenAI即將推出的AI視頻生成工具)時,回避了問題,聲稱數據是公開可用的或已授權。
如有興趣查詢您或您喜愛的頻道的YouTube視頻字幕是否包含在此數據集中,請訪問Proof News的查詢工具。