Gradient如何开发拥有百万标记上下文窗口的开放式语言模型

在近期的一项合作中,人工智能初创公司Gradient与云计算平台Crusoe将Llama-3模型的上下文窗口扩展到了令人瞩目的100万个标记。上下文窗口指的是大型语言模型(LLM)能够处理的输入和输出标记的数量,这对于诸多应用至关重要。

科技公司和领先的人工智能实验室之间展开了一场激烈的竞争,以提升其LLM的上下文窗口。在短短几个月内,标记支持从几千激增到超过一百万。然而,具有广泛上下文窗口的模型,如Anthropic的Claude(20万个标记)、OpenAI的GPT-4(12万个标记)和Google的Gemini(100万个标记),主要仍在私人环境中使用。

开源长上下文 LLM 的需求

Gradient与希望将LLM集成到其运营中的企业客户合作。在Llama-3发布之前,公司在客户项目中遇到了严重的上下文限制。例如,编程助手通常生成短小的代码片段,而现在企业希望增强这些功能,以便开发完整的代码模块。

Gradient AI的首席科学家Leo Pekelis指出:“为了实现这一目标,语言模型必须参考整个代码库或多个GitHub仓库。”逐步提供完整代码库将十分缓慢且容易产生不准确,因为模型无法一次性访问所有内容。“将整个代码库输入到语言模型上下文中,有助于解决许多问题,从而提供更准确和高效的解决方案,”他补充道。

由于对第三方数据传输的限制,许多公司无法使用像Gemini或Claude这样的私有模型。这促使Gradient团队开发自己的开源模型,支持100万个标记的上下文窗口。

开放研究的贡献

LLM的商业化降低了AI实验室分享发现和研究的意愿。尽管企业继续扩展上下文窗口,但他们不太愿意公开代码、数据或优化模型所用的策略。然而,开放研究社区依然致力于共享知识和推动模型进步。Gradient在全球大学和机构的研究贡献下得到了极大的帮助。

使用Meta的Llama 3的80亿和700亿参数版本,默认上下文窗口为8000个标记,他们借鉴了伯克利人工智能研究所的技术,这些技术使得在不占用过多内存和计算资源的情况下实现更长的上下文长度。最初的代码来自新加坡的一个开源项目,而关键数学公式来自上海的一家实验室。团队曾与Nvidia的基准测试进行评估,以比较他们的模型与其他长上下文LLM如Gemini的性能。

“很多进展都得益于开放研究社区的支持,”Pekelis指出。“开放研究深刻影响着我们各方面的工作。”

克服计算挑战

获取计算资源是LLM研究中的主要挑战。大多数AI实验室依赖大型GPU集群进行训练和测试。Gradient与Crusoe合作,研究长上下文LLM,利用Crusoe的专用AI云资源探索具有成本效益的模型开发。

Crusoe的高级开发者倡导Ethan Petersen表示:“时机恰到好处,正好我们在推出Nvidia L40S集群。我们的目标是证明这些芯片可以支持大规模的训练,而不仅仅是推理。”

大型科技公司争相获取像A100、H100和即将推出的B100等高端GPU,每个价格高达数万美元,服务器集群的总成本甚至达到数百万。Crusoe提供这些GPU并为客户定制解决方案。与Gradient紧密合作,他们定制了L40S集群,大幅降低了训练成本。

Crusoe的首席产品官Patrick McGregor表示:“我们与像Gradient这样的合作伙伴的策略是根据他们的需求提供最有效的计算解决方案,而在这种情况下,L40S是理想选择。通过定制计算产品,我们为客户提供了巨大的价值。”

Pekelis提到,通过在L40S集群上进行网络优化所实现的创新,使他们能够快速训练模型,并在Llama-3发布后不久就推出了这些模型。其他云提供商缺乏相同水平的协作灵活性,增加了自定义配置的复杂性。

模型评估技术

评估长上下文窗口的一个关键基准是“干草堆中的针”测试,该测试在较长的文本序列中查找特定信息。

Pekelis表示:“我们的模型在这个测试中表现接近完美,能达到200万的上下文长度,仅与我所见的Gemini 1.5 Pro相媲美。”然而,“干草堆中的针”测试可能无法完全反映模型的整体上下文性能。团队还采用了更复杂的评估方法,例如多个“干草堆中的针”或对抗性针,其中引入了相互矛盾的信息。

他们使用Nvidia的RULER基准测试评估模型,这些测试包含13项针对长上下文语言模型的任务,涉及不同的序列长度和复杂性。团队还在增强模型的多次语境学习能力,使其能够通过在提示中包括数百或数千个例子动态适应新任务。

长上下文 LLM 的企业应用

Pekelis相信,长上下文开源模型将弥补那些希望构建基于LLM应用的公司和开发者之间的差距。“目前,个体AI应用与企业解决方案之间存在明显差距,而后者往往滞后。”他说:“使语言模型能够处理更多信息的上下文窗口将开启新的可能性。”

更长的上下文可以推动代理系统——多个语言模型共同操作——通过更少的请求处理更多的信息。此外,长上下文LLM可以简化复杂的数据处理任务,例如风格模仿。“与其从多个来源收集和预处理数据来训练模型模仿我的写作风格,不如直接输入我过去的所有电子邮件,模型就能学会像我一样写作。”Pekelis解释道。

此外,具有广泛上下文窗口的LLM可能会减少对增强检索生成(RAG)的依赖,因为后者需要针对每个提示获取相关文档。假设具有无限上下文的LLM能够将所有文档整合到提示中,根据查询选择最相关的部分,尽管由于上下文限制,仍需针对每个新会话进行重新查询。

更大的上下文窗口还降低了创建原型和概念验证的门槛,帮助产品团队把握语言模型的潜力。“通常,教育客户了解可能性是一个关键的起始步骤,”Pekelis总结道。“开发原型或初始示例揭示了企业的转型潜力。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles