革命性變壓器架構：在不使用GPU的情況下釋放強大的大型語言模型（LLMs）

Home AI新聞革命性變壓器架構：在不使用GPU的情況下釋放強大的大型語言模型（LLMs）

無矩陣乘法的語言模型：效率的突破

在使用Transformer架構的大型語言模型（LLMs）中，矩陣乘法（MatMul）是計算最耗資的操作。隨著模型規模的擴大，MatMul操作的成本顯著上升，導致訓練和推理時的記憶體使用量與延遲增加。

來自加利福尼亞大學聖克魯斯分校、蘇州大學及加利福尼亞大學戴維斯分校的研究人員開發出一種創新架構，消除了語言模型中的矩陣乘法，同時在大規模下仍能提供卓越性能。

介紹無MatMul語言模型

在他們的突破性論文中，研究人員提出無MatMul語言模型，這些模型在推理時的性能可匹配最先進的Transformer，但所需的記憶體顯著減少。

深入了解深度學習中的矩陣乘法

在深度學習中，矩陣乘法對於將數據與神經網絡中的權重結合至關重要，使得輸入數據轉換為預測變得可行。由於其並行架構，GPU在同時執行大量MatMul操作方面表現突出，這對於高效訓練和部署複雜模型至關重要。

然而，隨著LLMs擴展到數百億個參數，MatMul操作成為瓶頸，迫使訓練和推理需使用巨型GPU集群。擺脫MatMul有望大幅節省記憶體和運算資源，但過去嘗試替代MatMul的努力常常因GPU性能不佳而導致過程延遲。

用三元權重革新運算

研究人員提出了一個令人振奮的替代方案：用能表示三個狀態（-1、0和+1）的3位三元權重替代傳統的16位浮點權重。他們引入了加法操作來取代MatMul，從而顯著降低計算成本。他們的模型使用“BitLinear層”來利用這些三元權重。

“通過將權重限制在{-1, 0, +1}這一集合中，並應用其他量化技術，我們已經用加法和取相反數的操作替代了MatMul，”研究人員解釋道。

創新的架構變更

這一架構與傳統Transformer有根本不同，後者由標記和通道混合器組成。負責通過自注意力機制整合序列標記信息的標記混合器，過渡到無MatMul的線性門控循環單元（MLGRU）。MLGRU通過簡單的三元操作更新隱藏狀態，從而避開高成本的矩陣乘法。

此外，通道混合器通過修改過的門控線性單元（GLU）整合標記表示中不同特徵通道的信息，並適用三元權重。這一調整在保持有效特徵整合的同時，降低了計算複雜度和記憶體使用。

“通過將MLGRU標記混合器與使用三元權重的GLU通道混合器結合，我們的架構僅依賴於加法和逐元素乘法，”研究人員指出。

無MatMul語言模型的性能評估

研究人員將他們的無MatMul語言模型與用於Llama-2的先進Transformer++架構進行對比，涵蓋多種模型大小。他們的研究結果顯示，無MatMul模型有效利用額外計算資源提升性能，相較於Transformer++。

在語言任務評估中，2.7B無MatMul模型在ARC-Challenge和OpenbookQA等基準上的表現優於其Transformer++對手，同時在其他任務中也達到相似水平。

“這些結果證明，無MatMul架構在多種語言任務中能實現強大的零-shot性能，包括問答和常識推理，”研究人員表示。

隨著模型尺寸的增大，無MatMul模型的低記憶體消耗和延遲更為明顯。例如，13B模型只需4.19 GB的GPU記憶體，延遲695.48毫秒，而Transformer++則需要48.50 GB的記憶體，延遲達3183.10毫秒。

優化實現與未來方向

研究人員為無MatMul語言模型開發了優化的GPU實現和定制的FPGA配置。通過這一優化，他們在訓練上實現了25.6%的加速，相較於未優化基準，其記憶體使用量降低了61.0%。

“這項工作超越了僅基於軟件的輕量模型實現，證明了可擴展和高效的語言模型能有效減少計算需求和能源消耗，”研究人員總結道。

儘管受限於對超過1000億參數模型的測試，研究人員希望鼓勵機構投資輕量模型，為更易於訪問的語言模型鋪平道路，這些模型無需高端GPU。研究人員已向研究界提供其代碼和模型。

“通過優先發展無MatMul架構，未來的LLMs將趨向於更高的可及性，效率和可持續性，”研究人員倡導道。

前Meta工程師推出自給自足的人工智慧代理Jace

LiveBench：一個開放的LLM基準測試，擁有無污染的測試數據和客觀評分

Most people like

TopMediai

1.1M

在當今快節奏的數位環境中，內容創作者不斷尋求創新的解決方案以提升生產力和創造力。以人工智慧驅動的在線工具已成為不可或缺的資源，提供尖端功能以簡化內容創作過程。從自動寫作輔助工具到先進的圖像編輯能力，這些工具使創作者能夠更高效地產出高品質內容。探索這些人工智慧解決方案如何改變您的創作流程並提升您的數位形象。

人工智慧工具 AI Speech Synthesis

Chromox

41K

探索創建引人入勝的 AI 生成視頻的最佳免費替代選擇，讓您突破 OpenAI Sora 的限制。

SORA AI Video Generator

Cliplama

109.3K

簡化您的社交媒體策略，透過自動化影片製作。在當今迅速變化的數位環境中，吸引人的影片內容對於抓住觀眾的注意力至關重要。自動化工具徹底改變了您製作影片的方式，使分享引人入勝的故事、展示產品和與追隨者連結變得更簡單更快速。無論您是希望增強線上形象的品牌，還是希望擴大影響力的個人創作者，都能發現自動化影片製作如何提升您的社交媒體表現。

AI 影片創作 Text to Video

Blackbox

166.1K

介紹 Blackbox：一個由人工智慧驅動的編程助手，旨在提高開發者的生產力並簡化工作流程。憑藉其創新功能，Blackbox 使程序員能夠更高效、更有效地編寫代碼。

人工智能驅動的程式碼助手 AI Code Assistant

Find AI tools in YBX