开放AI今天宣布了几项重要更新,其中最引人注目的是即将于2025年推出的“媒体管理器”。这一创新工具将使创作者能够管理自己的内容,决定哪些作品可以用于AI训练,哪些应排除在外。
根据开放AI网站的博客,媒体管理器的设计目标是:
“让创作者和内容拥有者能够识别他们所拥有的作品,并规定这些作品在机器学习研究中的使用方式。我们计划随着时间推移,增加更多功能。”
这一开创性工具将利用先进的机器学习研究,识别各个平台上的受版权保护的文本、图像、音频和视频,确保尊重创作者的偏好。开放AI在开发过程中与创作者、内容拥有者和监管机构密切合作,目的是在2025年前建立行业标准。
尽管目前尚未公布定价细节,但预计该工具将免费提供,因为开放AI希望自己能够在AI发展中成为道德领导者。
媒体管理器的必要性
媒体管理器旨在增强对创作者的保护,防止未经授权的AI数据抓取,超越开放AI在2023年8月实施的旧有方法“robots.txt”文件(“User-agent: GPTBot Disallow: /”)。许多创作者在不受控制的平台上分享作品,例如DeviantArt和Patreon,限制了他们调整访问设置的能力。此外,一些创作者可能只希望特定的作品被排除在数据抓取之外,媒体管理器将提供所需的细致控制。
开放AI承认,现有的解决方案并不充分,许多创作者缺乏对其内容在网络上出现和使用方式的控制。“我们认识到这些是局部解决方案,”博客中提到,强调了内容拥有者更高效地表达AI使用偏好的必要性。
应对AI数据抓取的批评
此项举措回应了视觉艺术家和内容创作者对包括开放AI在内的AI公司未经许可或赔偿而抓取数据的担忧。许多创作者已经对这些AI公司提起集体诉讼,指控其侵犯版权。
开放AI辩称,网络爬虫和数据抓取在互联网上历来是被接受的做法,并提到广泛采用的robots.txt标准可以指导网络爬虫访问的内容。
然而,许多艺术家现在反对在其作品上进行生成式AI训练,因为这直接影响他们的生计。开放AI还为面临版权侵犯索赔的付费用户提供了赔偿,旨在让企业客户放心。
法律背景与未来影响
关于AI抓取受版权保护的材料的法律框架仍在发展中。然而,无论法律结果如何,开放AI似乎都专注于以道德实体的形象示人,尤其是在内容创作者面前。
许多创作者可能会认为这些努力不够,因为他们的作品可能已经在未征得同意的情况下被用于训练AI模型。开放AI声称,自己并不存储全面的抓取数据副本,而是声称基于与输入数据相关的关系和过程生成模型。
开放AI表示:“我们的AI模型是学习机器,而非数据库。它们旨在创造新内容和想法,而不是复制现有内容。当模型偶尔重复某些表达内容时,这是机器学习过程的局限性所致。”
媒体管理器有潜力成为比现有方法(如Glaze和Nightshade)更易于使用的AI训练控制解决方案。然而,因开放AI的参与和其抵御竞争模型的有效性,未来仍需观察。