革命性技術使語言模型速度提升300倍

Home AI新聞革命性技術使語言模型速度提升300倍

Updated on 十一月 24 2023

蘇黎世聯邦理工學院的研究人員開創了一項突破性技術，大幅提升了神經網絡的效率。通過改變推斷過程，他們顯著降低了這些網絡的計算需求。在對廣泛應用於多種語言任務的變壓器模型BERT進行實驗時，研究團隊實現了超過99%的計算量減少。這種尖端方法還可以應用於驅動大型語言模型（LLM），如GPT-3的變壓器模型，為加速和更高效的語言處理鋪平道路。

了解快速前饋網絡

變壓器，LLM的核心，包含多層結構，包括注意力層和前饋層。前饋層佔據了模型參數的很大一部分，由於需要計算所有神經元在輸入維度上的乘積，它們計算密集。研究人員發現，並非所有前饋層的神經元在每次推斷時都需要被激活。他們引入了“快速前饋”（FFF）層來替代傳統的前饋層。 FFF使用條件矩陣乘法（CMM），這是一種數學運算，用以取代傳統前饋網絡中的密集矩陣乘法（DMM）。DMM涉及將所有輸入參數與所有神經元相乘，而CMM則僅針對每個輸入選擇使用部分神經元，從而簡化處理並減輕計算負擔。

FastBERT：語言處理的遊戲改變者

為了測試他們的創新技術，研究人員開發了FastBERT，這是一種修改版本的Google BERT模型。FastBERT通過用快速前饋層替代標準前饋層來提升性能，將神經元組織為平衡的二叉樹結構，根據特定輸入僅激活一個分支。為評估FastBERT的能力，團隊在通用語言理解評估（GLUE）基準上對多個模型進行了微調，該基準旨在評估自然語言理解系統。結果令人驚訝：FastBERT的表現與相同大小和訓練過的基礎BERT模型相似。僅在單個A6000 GPU上微調一天的變體保持了至少96.0%的BERT性能。值得注意的是，最佳變體在僅使用0.3%神經元的情況下達到了BERT的性能。研究人員表示，將快速前饋網絡整合進LLM中具有巨大的提升速度的潛力。例如，在GPT-3中，每個變壓器層包含49,152個神經元；使用FFF時，推斷時僅使用16個神經元，這大約是GPT-3神經元的0.03%。

應對優化挑戰

儘管在過去幾年中，密集矩陣乘法經歷了重大優化，但對於條件矩陣乘法則無法同樣適用。研究人員指出：“密集矩陣乘法是計算歷史上最優化的數學運算。”當前的深度學習框架對CMM的支持有限，主要通過高層模擬來實現。為推進這項研究，團隊開發了自有的CMM運算實現，實現了推斷過程中驚人的78倍速度提升。他們相信，隨著硬件的改進和更好的低級算法實現，速度有望超過300倍的提升，這將顯著解決語言模型面臨的緊迫挑戰：更快速地生成標記。

結論

對於BERT基礎模型理論上可達到341倍的加速潛力，彰顯了其工作的變革潛力。研究人員希望能夠激勵設備編程介面中條件神經執行原語的進一步發展。這項研究是解決大型語言模型的記憶和計算限制的關鍵一步，促進更高效和堅固的AI系統的發展。

駕馭人工智慧熱潮：OpenAI、Q* 及不斷升高的焦慮

Anthropic 降低 AI 價格以在日益增長的市場中保持競爭力

Most people like

Topicfinder

27.9K

使用 Topicfinder，這一針對創作者和行銷專家的必要研究工具，挖掘珍貴的內容創意。

競爭研究 AI Content Generator

PromptBox

60.1K

高效儲存與整理您在各種工具中的 AI 提示，以實現無縫的工作流程管理。了解如何簡化您的創作過程，通過將所有 AI 產生的創意集中於一處，提升生產力。

AI 提示 Other

Paperclips

36.9K

介紹 Paperclips，這是一款創新的網頁應用程式，利用人工智慧的力量，輕鬆將您的課程筆記或線上內容轉換為引人入勝的閃卡。這個為各地學習者設計的尖端工具能簡化您的學習過程，並提升記憶效果。

抽認卡 AI Product Description Generator

Rewritify: Undetectable AI Rewriter

107.1K

在數位交流的領域中，與讀者產生共鳴的內容需求從未如此重要。AI 重新編輯器應運而生，這是一種強大的工具，旨在將機器生成的文本轉化為引人入勝的人性化寫作。通過精煉和人性化您的內容，這項創新技術增強了清晰度與連結，讓您的訊息更具影響力。了解 AI 重新編輯器如何提升您的文本，不僅確保其傳遞資訊，更吸引您的觀眾。

AI 重寫工具 AI Rewriter

Find AI tools in YBX