新研究为语言模型解锁无限上下文
谷歌近期的一项研究揭示了大型语言模型(LLMs)领域的突破性进展——引入了无限注意力(Infini-attention)技术。这种创新方法使得LLMs能够处理无限长度的文本,同时保持稳定的内存和计算需求。
了解上下文窗口
“上下文窗口”指的是模型能够同时处理的标记数量。例如,如果与ChatGPT的对话超出了其上下文窗口,性能会显著下降,因为较早的标记可能会被丢弃。当组织将LLMs定制用于特定应用时,集中整合自定义文件和知识,扩展上下文长度变得至关重要,以获得竞争优势。
无限注意力:LLMs的游戏规则改变者
谷歌研究人员指出,采用无限注意力的模型能够有效管理超过一百万个标记,而不会增加内存使用。这一趋势在理论上可能进一步扩展。
传统上,LLMs所基于的变压器架构运作具有“平方复杂度”,这意味着将输入大小从1,000个标记增加到2,000个标记,内存和计算时间会增加四倍。这种低效源自自注意力机制,每个标记都与其他所有标记进行交互。
为了缓解这些限制,之前的研究提出了多种扩展LLMs上下文长度的方法。无限注意力结合了传统注意力机制和“压缩记忆”模块,能够高效处理长短期上下文关系。
无限注意力的工作原理
无限注意力保留了原有的注意力机制,同时集成了压缩记忆来处理延长输入。当输入超出其上下文长度时,模型将较旧的注意力状态传送至压缩记忆,从而保持内存参数恒定,提高效率。最终输出是将压缩记忆与局部注意力合并而得出的。
研究人员表示:“对变压器注意力层的这一关键修改,允许现有的LLMs通过持续预训练和微调扩展至无限上下文。”
性能与应用
在针对长输入序列的基准测试中,无限注意力的有效性得到了评估。在长上下文语言建模中,无限注意力表现优越,展现出更低的困惑度分数(更高的连贯性),并消耗了显著更少的内存。
在“密码检索”的测试中,无限注意力成功从最多一百万个标记的文本中检索出随机数字,在多达五十万标记的文本摘要任务中表现优于其他方法。
尽管谷歌尚未发布具体的模型细节或代码供独立验证,但其发现与Gemini的观察结果一致,后者同样支持数百万个标记的上下文。
长上下文LLMs的未来
长上下文LLMs在领先的AI实验室中是一个重要的研究领域。例如,Anthropic的Claude 3支持最多200,000个标记,而OpenAI的GPT-4的上下文窗口为128,000个标记。
无限上下文LLMs的一大显著优势是更容易定制应用。而无需依赖复杂的微调或增强生成(RAG)技术,这种模型理论上可以处理众多文档,为每个查询准确定位最相关的内容。此外,用户可以通过广泛的示例输入来提高特定任务的性能,而无需微调。
然而,无限上下文并不会完全取代现有方法。相反,它将降低入门门槛,使开发人员能够快速原型化应用,减少工程投入。随着组织采纳这些进展,优化LLM流程在应对成本、速度和准确性挑战方面仍将至关重要。