研究人员来自Meta和南加州大学,开发了一种新的机器学习模型,名为Megalodon。这一模型针对Transformer架构的关键挑战进行了优化,该架构在大型语言模型(LLMs)的发展中发挥了重要作用。
Megalodon显著扩展了上下文窗口,支持处理数百万个tokens,同时降低了内存使用。实验表明,Megalodon在处理大规模文本时,表现优于类似的Transformer模型,使其成为潜在的Transformer架构继任者。
什么是上下文窗口?
“上下文窗口”指的是模型可以同时处理的tokens数量。更大的上下文窗口增强了LLM进行长时间对话、分析更大文档和提升上下文学习的能力。然而,增加Transformer的上下文窗口会显著提高计算成本。
Transformer模型具有“平方复杂度”,也就是说,输入大小翻倍时,所需的内存和计算时间将增加四倍。这一特性源于自注意力机制,在该机制中,每个输入序列元素都需相互比较。
Meta的Megalodon基于2022年推出的移动平均门控注意力(MEGA)技术,优化了注意力机制,显著降低了模型复杂性,从而使LLM能够处理更长的输入而不会造成过高的内存需求。MEGA通过采用指数移动平均(EMA)平衡局部与远距离tokens之间的重要性,确保随着上下文的扩展保持连贯性。
Megalodon的关键创新
Megalodon通过一系列架构修改增强了MEGA,使其性能与传统Transformer的全注意力机制相匹配。它采用“块级注意力”,将输入序列分解为固定块,将复杂度从平方降低为线性。这种方法还促进了额外并行性,加快了模型训练速度。
研究人员针对70亿参数版本的Megalodon,使用2万亿tokens进行训练,并与Llama-2-7B和13B模型进行了基准测试。结果显示,Megalodon-7B在训练困惑度和各种下游任务中超越了用于训练Llama-2-7B的先进Transformer模型。在某些情况下,其性能甚至与Llama-2-13B相匹配。
虽然Megalodon在4,000个tokens的上下文窗口下,速度略慢于Llama-2,但在32,000个tokens的上下文长度下,由于计算效率的提高,其表现显著优越。早期实验发现,Megalodon能够有效建模无限长的序列。
研究团队还在不同数据类型的小规模实验中看到了良好的结果,并计划将Megalodon适应于多模态应用。Megalodon的代码在GitHub上开放,遵循MIT许可协议,允许自由修改和商业使用。
Transformer的主导地位
尽管对备选架构(如AI21 Labs商业使用的Mamba和MIT开发的液态神经网络)仍在不断探索,Transformer依然是语言模型的主流架构。Meta不仅在不断创新Megalodon,还在提升其Transformer系列,包括最近发布的Llama-3。
将新架构适应现有丰富的工具和库生态系统,以与Transformer匹配,是一项挑战。这些工具使模型训练、微调和优化各种应用和设备变得更加高效,从而使Transformer始终保持竞争优势。
研究人员也在调整Transformer架构,以减轻其计算负担。例如,谷歌的无限注意力旨在支持无限上下文窗口而不增加内存需求,目前的模型能够处理数十万tokens的输入。
在快速发展的AI研究背景下,我们必须认识到这一领域是动态变化的。自2017年引入Transformer以来,很少有人能预见其深远的影响。未来的模型可能会在能力上超越Transformer。