蘇黎世聯邦理工學院的研究人員開創了一項突破性技術,大幅提升了神經網絡的效率。通過改變推斷過程,他們顯著降低了這些網絡的計算需求。 在對廣泛應用於多種語言任務的變壓器模型BERT進行實驗時,研究團隊實現了超過99%的計算量減少。這種尖端方法還可以應用於驅動大型語言模型(LLM),如GPT-3的變壓器模型,為加速和更高效的語言處理鋪平道路。
了解快速前饋網絡
變壓器,LLM的核心,包含多層結構,包括注意力層和前饋層。前饋層佔據了模型參數的很大一部分,由於需要計算所有神經元在輸入維度上的乘積,它們計算密集。 研究人員發現,並非所有前饋層的神經元在每次推斷時都需要被激活。他們引入了“快速前饋”(FFF)層來替代傳統的前饋層。 FFF使用條件矩陣乘法(CMM),這是一種數學運算,用以取代傳統前饋網絡中的密集矩陣乘法(DMM)。DMM涉及將所有輸入參數與所有神經元相乘,而CMM則僅針對每個輸入選擇使用部分神經元,從而簡化處理並減輕計算負擔。
FastBERT:語言處理的遊戲改變者
為了測試他們的創新技術,研究人員開發了FastBERT,這是一種修改版本的Google BERT模型。FastBERT通過用快速前饋層替代標準前饋層來提升性能,將神經元組織為平衡的二叉樹結構,根據特定輸入僅激活一個分支。 為評估FastBERT的能力,團隊在通用語言理解評估(GLUE)基準上對多個模型進行了微調,該基準旨在評估自然語言理解系統。 結果令人驚訝:FastBERT的表現與相同大小和訓練過的基礎BERT模型相似。僅在單個A6000 GPU上微調一天的變體保持了至少96.0%的BERT性能。值得注意的是,最佳變體在僅使用0.3%神經元的情況下達到了BERT的性能。 研究人員表示,將快速前饋網絡整合進LLM中具有巨大的提升速度的潛力。例如,在GPT-3中,每個變壓器層包含49,152個神經元;使用FFF時,推斷時僅使用16個神經元,這大約是GPT-3神經元的0.03%。
應對優化挑戰
儘管在過去幾年中,密集矩陣乘法經歷了重大優化,但對於條件矩陣乘法則無法同樣適用。研究人員指出:“密集矩陣乘法是計算歷史上最優化的數學運算。”當前的深度學習框架對CMM的支持有限,主要通過高層模擬來實現。 為推進這項研究,團隊開發了自有的CMM運算實現,實現了推斷過程中驚人的78倍速度提升。他們相信,隨著硬件的改進和更好的低級算法實現,速度有望超過300倍的提升,這將顯著解決語言模型面臨的緊迫挑戰:更快速地生成標記。
結論
對於BERT基礎模型理論上可達到341倍的加速潛力,彰顯了其工作的變革潛力。研究人員希望能夠激勵設備編程介面中條件神經執行原語的進一步發展。這項研究是解決大型語言模型的記憶和計算限制的關鍵一步,促進更高效和堅固的AI系統的發展。