Meta推出Megalodon LLM，挑战Transformer架构

Home AI News CN Meta推出Megalodon LLM，挑战Transformer架构

研究人员来自Meta和南加州大学，开发了一种新的机器学习模型，名为Megalodon。这一模型针对Transformer架构的关键挑战进行了优化，该架构在大型语言模型（LLMs）的发展中发挥了重要作用。

Megalodon显著扩展了上下文窗口，支持处理数百万个tokens，同时降低了内存使用。实验表明，Megalodon在处理大规模文本时，表现优于类似的Transformer模型，使其成为潜在的Transformer架构继任者。

什么是上下文窗口？

“上下文窗口”指的是模型可以同时处理的tokens数量。更大的上下文窗口增强了LLM进行长时间对话、分析更大文档和提升上下文学习的能力。然而，增加Transformer的上下文窗口会显著提高计算成本。

Transformer模型具有“平方复杂度”，也就是说，输入大小翻倍时，所需的内存和计算时间将增加四倍。这一特性源于自注意力机制，在该机制中，每个输入序列元素都需相互比较。

Meta的Megalodon基于2022年推出的移动平均门控注意力（MEGA）技术，优化了注意力机制，显著降低了模型复杂性，从而使LLM能够处理更长的输入而不会造成过高的内存需求。MEGA通过采用指数移动平均（EMA）平衡局部与远距离tokens之间的重要性，确保随着上下文的扩展保持连贯性。

Megalodon的关键创新

Megalodon通过一系列架构修改增强了MEGA，使其性能与传统Transformer的全注意力机制相匹配。它采用“块级注意力”，将输入序列分解为固定块，将复杂度从平方降低为线性。这种方法还促进了额外并行性，加快了模型训练速度。

研究人员针对70亿参数版本的Megalodon，使用2万亿tokens进行训练，并与Llama-2-7B和13B模型进行了基准测试。结果显示，Megalodon-7B在训练困惑度和各种下游任务中超越了用于训练Llama-2-7B的先进Transformer模型。在某些情况下，其性能甚至与Llama-2-13B相匹配。

虽然Megalodon在4,000个tokens的上下文窗口下，速度略慢于Llama-2，但在32,000个tokens的上下文长度下，由于计算效率的提高，其表现显著优越。早期实验发现，Megalodon能够有效建模无限长的序列。

研究团队还在不同数据类型的小规模实验中看到了良好的结果，并计划将Megalodon适应于多模态应用。Megalodon的代码在GitHub上开放，遵循MIT许可协议，允许自由修改和商业使用。

Transformer的主导地位

尽管对备选架构（如AI21 Labs商业使用的Mamba和MIT开发的液态神经网络）仍在不断探索，Transformer依然是语言模型的主流架构。Meta不仅在不断创新Megalodon，还在提升其Transformer系列，包括最近发布的Llama-3。

将新架构适应现有丰富的工具和库生态系统，以与Transformer匹配，是一项挑战。这些工具使模型训练、微调和优化各种应用和设备变得更加高效，从而使Transformer始终保持竞争优势。

研究人员也在调整Transformer架构，以减轻其计算负担。例如，谷歌的无限注意力旨在支持无限上下文窗口而不增加内存需求，目前的模型能够处理数十万tokens的输入。

在快速发展的AI研究背景下，我们必须认识到这一领域是动态变化的。自2017年引入Transformer以来，很少有人能预见其深远的影响。未来的模型可能会在能力上超越Transformer。

埃隆·马斯克的“不错”评价聚焦Meta的Llama 3人工智能

微软发布VASA-1：AI框架让人类头像“活”起来，精彩呈现声音与歌曲

Most people like

Kommunicate

98.4K

创建并部署功能强大的聊天机器人，以提升网站和移动应用的用户互动体验。

聊天机器人 AI聊天机器人

FilterPixel

45K

在寻找最迅速的AI照片筛选软件吗？无论您使用的是Windows还是Mac系统，这款软件都能为您提供快速、高效的照片管理体验。

照片筛选软件 AI摄影

石墨笔记

39.2K

石墨笔记是一个直观易用的机器学习平台，旨在帮助用户快速获得关键的业务洞察。

无代码 AI Analytics助手

Videotranslation

205.4K

人工智能声音视频翻译的应用正在迅速发展。通过创新技术，我们能够即时将视频内容翻译成多种语言，提供更广泛的可访问性和全球化沟通的便利。这项技术不仅提升了用户体验，还拓展了教育、商业和娱乐等领域的边界。

视频翻译文本转语音工具

Find AI tools in YBX