最近,Proof News的一份调查显示,包括苹果、英伟达和Anthropic在内的多家全球知名科技公司,未经许可使用了超过173,000个YouTube视频的文字记录数据集来训练其人工智能模型。这一数据集由非营利组织EleutherAI创建,包含来自超过48,000个频道的视频文字记录。此调查引发了一个重要问题:许多人工智能技术的基础数据集在未获得内容创作者同意或公正补偿的情况下被广泛使用。
尽管该数据集不包含YouTube上的视频或图像,但它涵盖了著名创作者如Marques Brownlee和MrBeast的文字记录,以及来自主要媒体机构如《纽约时报》、《BBC》和ABC新闻的内容。此外,Engadget的内容也在其中。
Marques Brownlee在社交媒体平台X上表达了他的担忧,指出“苹果从多家公司获取AI数据,其中包括大量从YouTube视频提取的文字记录,包括我的。”他强调:“这一直是一个长期存在的问题。”
谷歌发言人向Engadget重申,YouTube首席执行官Neal Mohan的相关言论依然适用;使用YouTube数据来训练AI模型违反了该平台的服务条款。苹果、英伟达、Anthropic和EleutherAI均未对Engadget的询问做出回应。
人工智能公司在模型训练中使用的数据缺乏透明度仍然是一个重大关注点。近期,艺术家和摄影师批评苹果未能披露其即将推出的生成性AI技术Apple Intelligence的训练数据源,该技术将在数百万台苹果设备上实施。
作为最大的在线视频平台,YouTube不仅提供文字记录数据,还提供音频和视频内容,成为人工智能训练的宝贵资源。今年早些时候,OpenAI首席技术官Mira Murati在接受《华尔街日报》采访时对是否使用YouTube视频训练其AI工具Sora的问题避而不答,坚持认为所用数据均为公开或已获得许可的。谷歌首席执行官Sundar Pichai也表示,使用YouTube数据训练AI模型将违反该平台的服务条款。
要检查特定频道或视频的文字记录是否包含在上述数据集中,请访问Proof News的查询工具。