首次推出“公平训练”大型语言模型:AI发展新纪元

“没有使用受版权保护的材料,就不可能训练当今领先的人工智能模型。” OpenAI在其提交给英国上议院的文件中这样声明,这一消息早些时候曾引发广泛关注。

这一论点正是OpenAI为其有争议的大规模数据抓取实践进行公共和法律辩护的核心,包括用于训练其热门产品ChatGPT的GPT-3.5/4大型语言模型(LLMs)以及对竞争对手(如Google、Mistral、Meta、Anthropic和Cohere)的隐含影响。批评者认为OpenAI应寻求明确的同意和/或支付给数据所有者的授权费用,而该公司则主张其做法属于合理的变革性使用,符合互联网长久以来的规范,许多其他公司已多年进行内容抓取,以打造搜索引擎索引和其他有用功能,而未遭广泛投诉。目前,相关诉讼仍在持续进行。

然而,一个新模型正在挑战这一假设——至少是关于创建有用模型不依赖于受版权保护数据的观点。

这个新LLM被称为KL3M(Kelvin法律大型语言模型,发音为“Clem”),是由273 Ventures开发的,这是一家成立两年的初创公司,由伊利诺伊理工学院的法律教授兼首席战略官Daniel Martin Katz和法律科技企业家、273 Ventures的首席执行官Michael Bommarito共同创办。两人曾共同创办AI法律初创公司LexPredict,并将其出售给全球法律公司Elevate。

KL3M于2024年2月底发布,但今天它成为首个获得独立审计公司Fairly Trained颁发的“授权模型(L)认证”的LLM,该公司是由前Stability AI高管Ed Newton-Rex于今年早些时候创立的非营利机构。《Wired》杂志,我妻子担任主编的媒体,率先报道了这一消息。

只有在证明其AI模型训练数据是在“具有相关权利的第三方达成的合同协议下”获得和使用,或属于公共领域/开放许可证下,Fairly Trained(L)认证才会颁发。申请和审核过程还需支付150至500美元的费用。显然,KL3M符合这些要求。

“今天,我们非常高兴地宣布,Kelvin法律大型语言模型(KL3M)正式获得Fairly Trained认证。” Katz在社交网络X上写道。“KL3M成为第一个获得此认证的LLM。”

Fairly Trained在一则博客中声明:“生成性AI可以存在,而无需未经许可利用受版权保护的作品。”此次认证除了KL3M之外,还包括Voicemod(提供AI语音和歌唱模型)、音乐公司Infinite Album和Lemonaide,以及AI驱动的团队Frostbite Orckings。

那么KL3M是如何训练的?

Katz在一次短暂的电话采访中表示,自成立以来,273 Ventures一直在“耐心地收集不会引发问题的数据”,来源包括美国政府文件发布和旧的法律文件——这些内容均属于公共领域。

“我们起初不确定是否可以在不使用大量受版权保护信息的情况下进行模型训练,”Katz表示。“我们认为,尤其是在法律、金融和监管等领域中,确实有相当多不受版权保护的材料可以成功使用。”

Katz指出,并非所有行业都提供统一的公共领域文件,具体情况因国而异。例如,在英国,某些政府实体或机构可能会对其产生的文件和数据施加王室版权。

273 Ventures成立初期的一大工作是筛选可用于训练KL3M而不侵权的数据。这些数据最终也被打包成了产品——Kelvin法律数据包,包含超过1500亿个标记,于2023年8月发布。

KL3M则在“高质量、精心挑选的Kelvin法律数据包英文子集”上训练,并进行了对1万份文件的人工审查,数据集包含约3500亿个标记。273 Ventures在此处进一步详细描述了KL3M的训练过程。

目前,KL3M已有两个版本:kl3m-170m(170百万个参数)和更大的kl3m-1.7b(17亿个参数)。尽管kl3m-170m性能较低,但可在如M1芯片的MacBook Air等低功耗、低成本的硬件上运行,而更大模型则需较高配置的NVidia RTX 4060 8GB芯片(以及许多其他竞争LLMs)。

273 Ventures还计划下月发布3.7亿参数的KL3M变体。

KL3M的用途是什么,费用如何?

在其产品网页上,KL3M被宣传为有助于“起草和修改时间记录和发票、合同条款、美国证券交易委员会(SEC)文件的草拟和修订,如10-K和8-K报告部分,以及申请明显专利…”

尽管KL3M是专为法律行业设计的——客户对数据来源和合法性问题尤其敏感——Katz表示,他对KL3M在这一目标领域之外的广泛适用性感到惊讶。

“可以这样想:法律与社会的几乎所有主题都有联系,”Katz解释道。“而且政府发布了大量源材料,传授概念和语言的使用……我个人有点意外,但它确实比我们预想的适用范围更广。”

在上个月首次宣布该模型时,273 Ventures提供了多张图表,基准测试并比较了KL3M与同类模型的性能。结果发现,其17亿参数版本在撰写法律材料和维基条目时的困惑度(token预测错误)低于10个其他知名模型,包括GPT-2 Large和openllama3b_v2。

KL3M的1.7亿参数模型在毒性输出方面的表现也明显优于同类其他小模型,包括微软备受推崇的Phi-2。

Katz表示,目前该模型已在数家法律公司客户中使用,由于保密原因,他拒绝透露具体公司名字。

Most people like

Find AI tools in YBX