革命性变压器架构提升语言模型速度与资源效率

大型语言模型如 ChatGPT 和 Llama-2 因其庞大的内存和计算需求而闻名,这使得它们的运行成本高昂。即使缩减其大小的一小部分,也能带来显著的成本节约。

为了解决这一挑战,苏黎世联邦理工学院的研究人员提出了一种创新的变压器模型设计,这是一种支撑语言模型的深度学习架构。该新设计显著减小了变压器的体积,同时保持准确性并提高推断速度,为创建更高效的语言模型提供了有力的方案。

理解变压器块

语言模型依靠变压器块,这些是专为处理顺序数据(如文本段落)而设计的统一单元。经典的变压器块包含两个关键部分:注意机制和多层感知器(MLP)。注意机制选择性地突出输入数据的某些部分(例如句子中的单词),捕捉它们相互之间的上下文和重要性。这种能力使模型能够理解词语之间的关系,即便它们在文本中相距较远。

在注意机制之后,MLP 进一步精炼高亮的信息,将其转化为更复杂的表示,以捕捉复杂的关系。附加的元件,如残差连接和归一化层,有助于加强学习,解决深度神经网络中常见的问题。当这些变压器块堆叠形成语言模型时,它们识别复杂关系的能力也随之增强,从而支持现代语言模型执行的高级任务。尽管变压器块的设计自诞生以来仍基本保持不变,但其革命性影响依然显著。

提高变压器效率

苏黎世联邦理工学院的研究人员表示:“考虑到当前大型变压器模型训练和部署的高昂成本,变压器架构在训练和推断流程中的任何效率提升都代表着显著的节省潜力。”他们提出,通过去除非必需的组件来简化变压器块,可以降低参数数量并提高模型吞吐量。

实验结果显示,简化变压器块并未影响训练速度或性能。传统的变压器模型通常使用多个注意头,每个注意头都有自己的一组键(K)、查询(Q)和值(V)参数,这些参数共同映射输入token之间的关系。研究人员发现,去除值参数及相关的投影层并没有降低效果。此外,他们还去除了跳跃连接,通常用于避免深度网络中的“梯度消失”问题。

新的变压器块设计

重新设计的变压器块同时处理注意头和 MLP,创新性地摒弃传统的顺序处理方式。为了弥补参数减少的影响,研究人员调整了其他非可学习参数,改进了训练方法,并进行了一些架构上的调整。这些创新共同保持了模型的学习能力,尽管其结构更为精简。

测试改进的变压器块

苏黎世联邦理工学院的团队在不同语言模型规模下评估了他们的紧凑型变压器块。他们在不牺牲准确率的情况下,成功将传统变压器的体积缩减约 16%,同时实现了更快的推断时间。例如,将这一架构应用于拥有 1,750 亿参数的大型模型 GPT-3,可以节省约 50 GB 的内存。

“我们的简化模型不仅训练更快,还更好地利用了更深结构所提供的额外容量,”研究人员指出。虽然这一技术在较小规模上已展现有效性,但在更大模型上的应用仍待探索。未来,定制 AI 处理器以适应这一精简架构的潜力,可能会显著提升其影响力。

研究人员总结道:“我们相信,我们的研究可以推动更简单架构的实际应用,缩小深度学习理论与应用之间的差距,同时降低与大型变压器模型相关的成本。”

Most people like

Find AI tools in YBX