在最近的一項研究中,Meta、巴黎工程學院及巴黎薩克雷大學的研究人員提出了一種新方法,旨在提高人工智慧大型語言模型(LLM)的準確性與速度,使其能夠同時預測多個標記。這一創新挑戰了傳統的自回歸模型設計,後者一次僅預測一個標記。
多標記預測的優勢
雖然多標記預測並不適用於每個LLM或語言任務,但在特定情境下,它提供了顯著的優勢,例如在生成任務中,其速度可達傳統方法的三倍。儘管這項技術仍有改進的空間,但在某些LLM應用中,它可以成為一個強大的工具。
下一個標記預測的挑戰
傳統的LLM訓練方法稱為「下一個標記預測」。這一自我監督學習技術涉及將一系列標記呈現給模型,讓其預測下一個標記,然後將該標記加入輸入以進行進一步預測。這一迭代過程應用於大量文本語料,使模型能夠學會生成連貫的文本。然而,研究人員發現下一個標記預測在語言處理、知識獲取及推理能力的開發上存在限制。專注於逐一預測標記的模型風險過於敏感於局部模式,可能忽略需要更廣泛上下文的推理。此外,下一個標記預測需要龐大的數據集,以達到人類所能達到的流利程度。
Meta的最新研究指出,「訓練語言模型同時預測多個未來標記可提高樣本效率」。
探索多標記預測
相較之下,多標記預測指導LLM同時在訓練數據的每一個位置預測幾個未來標記。研究人員引入了一種簡單的多標記預測架構,並未增加額外的訓練時間或記憶需求。此模型基於已建立的Transformer架構,這是大多數LLM的基礎,但進行了修改。它不僅生成單一輸出,還為每個標記預測增加了多個獨立輸出頭。
多標記預測的實作
在推理階段,模型對每個輸出頭採用傳統的下一個標記預測方法,利用額外的頭部來簡化解碼過程。該框架基於該領域先前的研究成果。「雖然經濟實惠且簡單,但多標記預測顯著提高了更快、更強大的Transformer模型的訓練效率,」研究人員表示。
結果與觀察
研究團隊對300萬到130億參數範圍的模型測試了他們的多標記預測策略,發現顯著的模式:較小的模型從多標記預測中獲益較少,而隨著模型大小增長,其效果逐漸明顯。以4標記預測訓練的模型在MBPP編碼基準測試中,與單標記預測相比,性能提升數個百分點。研究人員總結道,「使用相同的計算資源,運用多標記預測可以取得更大的語言模型性能。」
此外,多標記預測提高了解碼速度,使模型在不同批次大小下快達三倍。「使用多標記預測進行預訓練能提升額外頭部的準確性,相較於僅對下一個標記預測模型進行微調,能夠釋放自我推測解碼的全部潛力,」他們解釋道。
這項研究還強調,多標記預測促使模型學習長期模式,特別是在「字節級標記化」實驗中,其中每個字節視為單一標記。在這種情況下,多字節預測大幅超越了基準的單字節模型,對於缺乏預定詞彙的應用至關重要。
未來的研究方向
儘管有其優勢,多標記預測仍面臨挑戰。最佳預測標記的數量會因任務和模型大小而異。研究人員正在探索未來的研究方向,包括自動化技術以確定最佳預測標記數量,及詞彙大小與多標記策略之間的動態關係。這項研究對企業應用具有潛力,能夠提升推理速度與生成任務的準確性,例如代碼補全—而無需對現有LLM架構進行重大改動,確保與Transformer框架內的其他優化技術相兼容。