最近的一项研究中,Meta、巴黎高科工程师学院和巴黎萨克雷大学的研究人员提出了一种新方法,通过允许AI大型语言模型(LLMs)同时预测多个标记,以提高其准确性和速度。这一创新挑战了传统的自回归模型设计,后者一次只预测一个标记。
多标记预测的优势
虽然多标记预测并不适用于所有的LLM或语言任务,但在特定场景下,它能够显著加快生成任务的速度,达到传统方法的三倍。这一技术虽然仍有改进的空间,却在部分LLM应用中展现出强大的潜力。
下一个标记预测的挑战
LLM的传统训练方法称为“下一个标记预测”。这种自监督学习技术通过向模型呈现一系列标记,促使其预测下一个标记,然后将其添加到输入中以进行进一步的预测。这一迭代过程在庞大的文本语料库上进行,使模型能够学习生成连贯的文本。
然而,研究者发现,单一标记预测在语言处理、知识获取和推理能力的发展方面存在局限性。仅专注于一个标记,模型可能过于敏感于局部模式,而忽视更广泛上下文所需的推理。此外,下一个标记预测需要庞大的数据集,以达到人类所能取得的流利程度。
Meta最近的研究指出:“训练语言模型同时预测多个未来标记可以提高样本效率。”
探索多标记预测
与此相对,多标记预测要求LLM在训练数据的每个位置同时预测多个未来标记。研究人员提出了一种简化的多标记预测架构,不增加额外的训练时间或内存需求。
该模型基于大多数LLM的基础架构——变换器(Transformer),但进行了修改。它并不是生成单一输出,而是为每个标记预测提供多个独立的输出头。
多标记预测的实施
在推理阶段,模型对每个输出头使用传统的下一个标记预测方法,并利用额外的头部来简化解码过程。这一框架借鉴了该领域的前期工作。
研究人员表示:“虽然成本低且简单,但多标记预测显著增强了更快速且功能强大的变换器模型的训练。”
结果与观察
研究团队对从3亿到130亿参数的模型测试了其多标记预测策略。结果显示,小模型从多标记预测中获益较少,而随着模型规模的扩大,其效果愈加明显。例如,在MBPP编程基准测试中,经过4标记预测训练的模型比单标记预测模型的性能显著提高了几个百分点。
研究人员总结道:“在相同计算资源下,使用多标记预测可以提高大型语言模型的性能。”
此外,多标记预测还提高了推理速度,使模型在不同批量大小的情况下速度提高至三倍。“与仅进行下一个标记预测模型的微调相比,采用多标记预测的预训练方法提升了额外输出头的准确性,充分发挥了自我推测解码的潜力。”
研究还强调,多标记预测促使模型学习更长远的模式,尤其是在采用“字节级标记化”的实验中,其中每个字节作为单个标记处理。在这些情况下,多字节预测明显优于基线的单字节模型,这对于缺乏预定义词汇的应用至关重要。
研究的未来方向
尽管多标记预测有诸多优势,但仍面临一些挑战,如最佳预测标记数量因任务和模型规模而异。研究人员正在探索未来的研究方向,包括自动化技术以识别最优的预测标记数量,以及词汇规模与多标记策略间的动态关系。
这项研究对企业应用前景乐观,可能在不对现有LLM架构进行重大改动的情况下,提供更快的推理速度和更高的生成任务准确性,例如代码补全,从而保证与变换器框架内其他优化技术的兼容性。