蘋果、NVIDIA 和 Anthropic 被控未經授權使用 YouTube 轉錄文本來訓練 AI 模型

Home AI新聞蘋果、NVIDIA 和 Anthropic 被控未經授權使用 YouTube 轉錄文本來訓練 AI 模型

Updated on 十一月 2 2024

最近，Proof News的一項調查揭示，全球多家主要科技公司在未經許可的情況下，使用了超過173,000份YouTube視頻的文字稿來訓練其人工智慧模型。這一數據集由非營利組織EleutherAI創建，涵蓋了來自超過48,000個頻道的文字稿，其中包括Apple、NVIDIA和Anthropic等公司使用的材料。這項調查強調了一個關鍵問題：許多人工智慧技術的基礎數據集都在未經內容創作者同意或合理補償的情況下被使用。

該數據集雖然不包含YouTube的實際視頻或圖片，但卻整合了知名創作者如Marques Brownlee和MrBeast的文字稿，以及包括《紐約時報》、BBC和ABC新聞等主要媒體機構的內容。Engadget的內容也在其中。

Marques Brownlee在社交媒體平台X上表達了他的擔憂，指出：“Apple從多家公司獲取AI數據，其中包括大量來自YouTube視頻的文字稿，包括我的內容。”他強調：“這是一個長期存在的問題。”

Google發言人向Engadget重申，YouTube首席執行官Neal Mohan的言論仍具相關性；使用YouTube數據訓練AI模型違反了該平台的服務條款。Apple、NVIDIA、Anthropic及EleutherAI均未對Engadget的詢問作出回應。

圍繞人工智慧公司用於模型訓練的數據透明性缺乏仍然是一項重大關切。近期，藝術家和攝影師批評Apple未能披露其即將推出的生成AI技術Apple Intelligence的訓練數據來源，該技術將在數百萬台Apple設備上實施。

作為最大的在線視頻平台，YouTube不僅提供文字稿數據，還提供音頻和視頻內容，成為人工智慧訓練的寶貴資源。今年早些時候，OpenAI首席技術官Mira Murati在《華爾街日報》的一次訪談中對於是否使用YouTube視頻訓練其AI工具Sora避而不談，堅持宣稱所使用的數據均為公開或授權的。Alphabet首席執行官Sundar Pichai也曾表示，使用YouTube數據訓練AI模型會違反該平台的服務條款。

如需確認特定頻道或視頻的文字稿是否包含在上述數據集中，請訪問Proof News的查詢工具。

亞馬遜推出革命性AI產品圖片生成器

OpenAI在醫療領域的突破：GPT-4o模型如何推進癌症篩檢與治療工具