Meta推出Megalodon大型語言模型,挑戰Transformer架構

Meta與南加州大學的研究者們開發出一種新的機器學習模型,成功解決了與Transformer架構相關的關鍵挑戰。該模型名為Megalodon,顯著擴大了上下文窗口至數百萬個標記,同時減少了內存使用。實驗表明,Megalodon在處理大量文本方面優於類似的Transformer模型,使其成為Transformer架構的潛在繼承者。

理解上下文窗口

“上下文窗口”是指模型能夠同時處理的標記數量。更廣泛的上下文窗口增強了大型語言模型(LLM)進行長期對話、分析更大文檔和改善上下文學習的能力。然而,擴大Transformer的上下文窗口會帶來可觀的計算成本。

Transformer的運作具有“二次複雜性”,這意味著輸入大小加倍會使內存和計算時間增加四倍。這一關係源自自注意力機制,每個輸入序列的元素均相互比較。

Meta的Megalodon基於2022年提出的移動平均門控注意力技術(MEGA),它優化了注意力機制,大幅降低模型的複雜性,使LLM能在不過度消耗內存的情況下處理更長的輸入。MEGA結合了指數移動平均(EMA),平衡了局部和遠距標記關係的重要性,確保隨著上下文的擴展保持連貫性。

Megalodon的關鍵創新

Megalodon在架構上對MEGA進行了多項改進,使其性能可與Transformer的全注意力機制相對應。它使用“分塊注意力”,將輸入序列拆分為固定塊,將複雜度從二次降為線性。此方法還促進更多的並行性,加快了模型訓練的速度。

研究人員在2000萬個標記上訓練了一個擁有70億參數的Megalodon版本,並將其與Llama-2-7B和13B模型進行基準測試。結果顯示,Megalodon-7B在訓練困惑度和各種下游任務上超越了用於訓練Llama-2-7B的最新Transformer,在某些情況下,其性能甚至接近Llama-2-13B。

儘管Megalodon在4000個標記的上下文窗口下運行速度稍慢於Llama-2,但由於計算效率的提升,它在32000個標記的上下文長度下表現優異。早期實驗結果顯示,Megalodon能有效建模無限長度的序列。

研究團隊還在不同數據模態的小規模實驗中取得了令人鼓舞的成果,並計劃將Megalodon適應於多模態應用。Megalodon的代碼已在GitHub上以MIT許可證發布,允許不限使用和商業化。

Transformer的主導地位

儘管持續探索諸如Mamba(AI21 Labs商業使用)和MIT開發的液態神經網絡等替代架構,但Transformer依然是語言模型的主導架構。Meta不斷創新,推出Megalodon等模型,同時增強其Transformer系列,包括最近發布的Llama-3。

將新架構調整以匹配Transformer現有的廣泛工具和庫生態系統是一項挑戰。這些工具促進模型訓練、微調和在各種應用和設備上的優化,使Transformer保持領先。

研究人員也在修改Transformer架構,以減輕其計算需求。例如,Google的Infini-attention旨在支持無限制的上下文窗口,而不增加內存需求,目前模型可以處理數十萬個標記的輸入。

隨著AI研究的迅速發展,認識到這一領域的動態性至關重要。2017年當Transformer首次推出時,鮮有人預料到其深遠的影響。未來的模型可能超越Transformer的能力。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles