Meta的多重token预测提升AI模型速度至3倍以上

Home AI News CN Meta的多重token预测提升AI模型速度至3倍以上

最近的一项研究中，Meta、巴黎高科工程师学院和巴黎萨克雷大学的研究人员提出了一种新方法，通过允许AI大型语言模型（LLMs）同时预测多个标记，以提高其准确性和速度。这一创新挑战了传统的自回归模型设计，后者一次只预测一个标记。

多标记预测的优势

虽然多标记预测并不适用于所有的LLM或语言任务，但在特定场景下，它能够显著加快生成任务的速度，达到传统方法的三倍。这一技术虽然仍有改进的空间，却在部分LLM应用中展现出强大的潜力。

下一个标记预测的挑战

LLM的传统训练方法称为“下一个标记预测”。这种自监督学习技术通过向模型呈现一系列标记，促使其预测下一个标记，然后将其添加到输入中以进行进一步的预测。这一迭代过程在庞大的文本语料库上进行，使模型能够学习生成连贯的文本。

然而，研究者发现，单一标记预测在语言处理、知识获取和推理能力的发展方面存在局限性。仅专注于一个标记，模型可能过于敏感于局部模式，而忽视更广泛上下文所需的推理。此外，下一个标记预测需要庞大的数据集，以达到人类所能取得的流利程度。

Meta最近的研究指出：“训练语言模型同时预测多个未来标记可以提高样本效率。”

探索多标记预测

与此相对，多标记预测要求LLM在训练数据的每个位置同时预测多个未来标记。研究人员提出了一种简化的多标记预测架构，不增加额外的训练时间或内存需求。

该模型基于大多数LLM的基础架构——变换器（Transformer），但进行了修改。它并不是生成单一输出，而是为每个标记预测提供多个独立的输出头。

多标记预测的实施

在推理阶段，模型对每个输出头使用传统的下一个标记预测方法，并利用额外的头部来简化解码过程。这一框架借鉴了该领域的前期工作。

研究人员表示：“虽然成本低且简单，但多标记预测显著增强了更快速且功能强大的变换器模型的训练。”

结果与观察

研究团队对从3亿到130亿参数的模型测试了其多标记预测策略。结果显示，小模型从多标记预测中获益较少，而随着模型规模的扩大，其效果愈加明显。例如，在MBPP编程基准测试中，经过4标记预测训练的模型比单标记预测模型的性能显著提高了几个百分点。

研究人员总结道：“在相同计算资源下，使用多标记预测可以提高大型语言模型的性能。”

此外，多标记预测还提高了推理速度，使模型在不同批量大小的情况下速度提高至三倍。“与仅进行下一个标记预测模型的微调相比，采用多标记预测的预训练方法提升了额外输出头的准确性，充分发挥了自我推测解码的潜力。”

研究还强调，多标记预测促使模型学习更长远的模式，尤其是在采用“字节级标记化”的实验中，其中每个字节作为单个标记处理。在这些情况下，多字节预测明显优于基线的单字节模型，这对于缺乏预定义词汇的应用至关重要。

研究的未来方向

尽管多标记预测有诸多优势，但仍面临一些挑战，如最佳预测标记数量因任务和模型规模而异。研究人员正在探索未来的研究方向，包括自动化技术以识别最优的预测标记数量，以及词汇规模与多标记策略间的动态关系。

这项研究对企业应用前景乐观，可能在不对现有LLM架构进行重大改动的情况下，提供更快的推理速度和更高的生成任务准确性，例如代码补全，从而保证与变换器框架内其他优化技术的兼容性。

456.3K

安全的数据擦除、人工智能驱动的防病毒解决方案以及智能防火墙技术是现代网络安全的关键组成部分。

数据擦除其他

67.3K

提供以AI为核心的客户支持平台，专为社区驱动的公司量身定制。

以AI为先 AI客户服务助手

61.3K

使用人工智能优化故事板制作流程在创作过程中，故事板是连接创意与视觉表达的重要桥梁。利用人工智能，大大简化了故事板的制作流程，使创作者能够高效地将想法转化为引人入胜的视觉内容。通过AI技术，故事板的设计与编辑变得更加直观与便捷，让创作者专注于故事本身，而不必为繁琐的流程而烦恼。

AI 故事板 AI脚本编写

391.6K

引导潜在客户的互动测验，用于生成潜在客户信息。通过有趣的问答形式，这项测验不仅吸引用户参与，也帮助您获取有价值的客户数据。这是提升营销效果的有效工具，助力您的业务拓展与增长。

测验制作器其他

Find AI tools in YBX