苹果、英伟达和Anthropic被指未经同意使用YouTube转录文本进行AI模型训练

Proof News的调查揭示,苹果、NVIDIA和Anthropic等大型科技公司在训练其人工智能模型时,使用了包含超过173,000个YouTube视频转录本的数据集,而未获得创作者的许可。该数据集由非营利组织EleutherAI编制,涵盖了来自超过48,000名创作者的频道,其中包括知名人物Marques Brownlee和MrBeast,以及大型新闻机构如《纽约时报》,BBC和ABC新闻。

这项调查揭示了人工智能发展的一个令人不安的现实:许多技术依赖于从创作者那里提取的数据,而未获得他们的同意或赔偿。尽管该数据集不包含视频或图像,但它仍然包含了许多有影响力内容创作者的重大贡献。

Marques Brownlee在社交媒体上表达了自己的担忧,指出苹果从多个公司获得数据,其中一些公司抓取了Youtube视频的转录本,包括他的。他表示:“这将是一个长期不断演变的问题,”承认了涉及AI数据使用的复杂伦理问题。

谷歌发言人重申了YouTube首席执行官Neil Mohan关于利用YouTube数据进行人工智能训练的公司违反平台服务条款的声明。对于苹果、NVIDIA、Anthropic和EleutherAI的评论请求,多次未获回应。

关于人工智能公司所使用训练数据的透明性问题仍然棘手。最近,苹果遭到艺术家和摄影师的批评,因为未披露其即将推出的生成性AI功能“Apple Intelligence”的训练数据来源。对此,苹果澄清称,其仅为研究目的创建的OpenELM模型并不支撑其AI或机器学习能力。该公司声称其AI模型是基于“许可数据”和网络爬虫收集的公开信息进行训练的。

作为全球最大的在线视频库,YouTube提供了丰富的转录本、音频、视频和图像,成为开发AI模型的理想资源。今年早些时候,OpenAI首席技术官Mira Murati在被问及是否使用YouTube视频训练其即将推出的AI视频生成工具Sora时,避而不谈,表示数据要么是公开可用的,要么已获得许可。

如果您想查看您的YouTube视频或您喜欢的频道的字幕是否包含在此数据集中,可以访问Proof News的查找工具。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles