人工智能公司Runway被指控未经授权抓取了“数千”个YouTube视频,并盗用版权电影。调查媒体404 Media获得的内部电子表格显示,这家AI视频生成初创公司利用来自迪士尼、Netflix和皮克斯等大公司的内容训练其Gen-3模型。
一位匿名前Runway员工透露,这些电子表格用于识别可供公司数据库使用的视频,随后使用开源代理软件偷偷下载。一个电子表格中列出了简单的关键字,如“宇航员”、“仙女”和“彩虹”,并附有关于优质训练视频可用性的注释。例如,关键字“超级英雄”旁备注:“许多电影剪辑。”其他备注则指出,关注虚幻引擎的频道、电影制作人Josh Neuman和《使命召唤》粉丝页面被认为是“高动态”训练视频的优秀来源。
这位前员工表示:“这些电子表格中的频道代表了公司全体的努力,旨在发现优质视频以用于模型开发。”他补充道:“这导致了一个巨大的网络爬虫创建,它从所有列出频道中下载视频,使用代理以避开谷歌的监测。”
该电子表格中列出了近4000个被标记为“推荐”的YouTube频道,内容包括CBS纽约、AMC影院、皮克斯、Disney Plus,甚至蒙特雷湾水族馆的作品。Runway还 reportedly 积累了一份来自盗版网站的视频单独清单,标题为“非YouTube来源”的电子表格中提供了对吉卜力工作室电影和各种动漫及电影盗版平台的链接。
为了进一步证实未经授权使用数据的指控,404 Media发现输入电子表格中列出的知名YouTuber的名字会得到惊人相似的结果。而使用相同名字的Runway较早版本Gen-2模型(训练于不同数据)则产生了无关的结果,例如一组穿西装的男性的普通图像。值得注意的是,在404 Media询问这些结果中YouTuber的相似性后,AI工具完全停止生成这些图像。
前员工表示:“我希望分享这些信息能帮助人们理解这些企业及其生成‘酷’视频的方法的深远影响。”
在被联系寻求评论时,YouTube的一位代表提到了首席执行官尼尔·莫汉在四月份的采访中,指出对其视频进行训练是YouTube条款的“明显违反”。他表示:“我们之前的评论仍然有效。”截至出版截止日期,Runway未对此作出回应。
随着AI领域的不断发展,一些公司可能正努力在市场中占据主导地位,而消费者和法律系统尚未完全理解其做法的影响。虽然通过许可协议进行的授权训练是一种方法——这种做法已被OpenAI等公司采用——但在追逐利润和技术霸权的过程中,抓取网络上的版权材料则是一种更具争议乃至违法的策略。