革命性变压器架构提升语言模型速度与资源效率

Home AI News CN 革命性变压器架构提升语言模型速度与资源效率

Updated on 十二月 1 2023

大型语言模型如 ChatGPT 和 Llama-2 因其庞大的内存和计算需求而闻名，这使得它们的运行成本高昂。即使缩减其大小的一小部分，也能带来显著的成本节约。

为了解决这一挑战，苏黎世联邦理工学院的研究人员提出了一种创新的变压器模型设计，这是一种支撑语言模型的深度学习架构。该新设计显著减小了变压器的体积，同时保持准确性并提高推断速度，为创建更高效的语言模型提供了有力的方案。

理解变压器块

语言模型依靠变压器块，这些是专为处理顺序数据（如文本段落）而设计的统一单元。经典的变压器块包含两个关键部分：注意机制和多层感知器（MLP）。注意机制选择性地突出输入数据的某些部分（例如句子中的单词），捕捉它们相互之间的上下文和重要性。这种能力使模型能够理解词语之间的关系，即便它们在文本中相距较远。

在注意机制之后，MLP 进一步精炼高亮的信息，将其转化为更复杂的表示，以捕捉复杂的关系。附加的元件，如残差连接和归一化层，有助于加强学习，解决深度神经网络中常见的问题。当这些变压器块堆叠形成语言模型时，它们识别复杂关系的能力也随之增强，从而支持现代语言模型执行的高级任务。尽管变压器块的设计自诞生以来仍基本保持不变，但其革命性影响依然显著。

提高变压器效率

苏黎世联邦理工学院的研究人员表示：“考虑到当前大型变压器模型训练和部署的高昂成本，变压器架构在训练和推断流程中的任何效率提升都代表着显著的节省潜力。”他们提出，通过去除非必需的组件来简化变压器块，可以降低参数数量并提高模型吞吐量。

实验结果显示，简化变压器块并未影响训练速度或性能。传统的变压器模型通常使用多个注意头，每个注意头都有自己的一组键（K）、查询（Q）和值（V）参数，这些参数共同映射输入token之间的关系。研究人员发现，去除值参数及相关的投影层并没有降低效果。此外，他们还去除了跳跃连接，通常用于避免深度网络中的“梯度消失”问题。

新的变压器块设计

重新设计的变压器块同时处理注意头和 MLP，创新性地摒弃传统的顺序处理方式。为了弥补参数减少的影响，研究人员调整了其他非可学习参数，改进了训练方法，并进行了一些架构上的调整。这些创新共同保持了模型的学习能力，尽管其结构更为精简。

测试改进的变压器块

苏黎世联邦理工学院的团队在不同语言模型规模下评估了他们的紧凑型变压器块。他们在不牺牲准确率的情况下，成功将传统变压器的体积缩减约 16%，同时实现了更快的推断时间。例如，将这一架构应用于拥有 1,750 亿参数的大型模型 GPT-3，可以节省约 50 GB 的内存。

“我们的简化模型不仅训练更快，还更好地利用了更深结构所提供的额外容量，”研究人员指出。虽然这一技术在较小规模上已展现有效性，但在更大模型上的应用仍待探索。未来，定制 AI 处理器以适应这一精简架构的潜力，可能会显著提升其影响力。

研究人员总结道：“我们相信，我们的研究可以推动更简单架构的实际应用，缩小深度学习理论与应用之间的差距，同时降低与大型变压器模型相关的成本。”

Meta AI推出“无缝”翻译器，实现轻松实时跨语言沟通

设计理想的生成AI数据层：来自Intuit的关键洞察

Most people like

CopyrightShark

9.4K

通过快速下架机制来保护您的内容，确保您的作品不被未经授权使用。

知识产权其他

Pinokio

441.2K

浏览器是一种强大的工具，它不仅能够自动安装和运行应用程序，还能够高效地控制各种程序的操作。通过合理利用浏览器，我们可以提升工作效率和用户体验。

人工智能文字转图片工具

FilePower AI

16.9K

智能文档管理与处理的人工智能工具。

人工智能文档管理 AI PDF

PygmalionAI

333.5K

在当今数字时代，聊天AI项目正迅速改变我们的沟通方式。这些智能系统不仅提高了客户服务的效率，还有助于提升用户体验。通过利用人工智能技术，聊天AI可以快速理解并回应用户的问题，构建更具互动性和个性化的对话。无论是商业应用还是个人使用，聊天AI的潜力正不断被发掘和拓展。>>探索聊天AI项目的优势和应用潜力，让我们深入了解这项突破性技术的未来。

人工智能 AI聊天机器人

Find AI tools in YBX