Nous Research 本月發佈了其開源 Llama 3.1 變體 Hermes 3,引起了廣泛關注。這支專注於開發「個性化、自由使用的 AI」模型的小型研究團隊,隨後又推出了另一項突破性創新:DisTrO(分佈式網路訓練)。這種新型優化器顯著減少了在 AI 模型訓練過程中,GPU(圖形處理單元)之間所需的數據傳輸。
DisTrO 使全球的個人和機構能夠通過消費級的網路連接協作訓練先進的 AI 模型,打破了大企業主導訓練過程的局限。根據最近的技術論文,Nous Research 揭示了 DisTrO 相較於流行的 All-Reduce 訓練算法,效率提高了驚人的 857 倍,並將每次訓練步驟的數據傳輸量從 74.4 GB 降至僅 86.8 MB,性能下降幅度微乎其微。研究的主要發現已在論文附表中進行總結。
最終,DisTrO 有望讓更多人能夠接觸到強大的 AI 模型訓練,促進探索與實驗,無需企業的障礙。
AI 訓練的挑戰:龐大的硬體需求
如前所述,隨著生成式 AI 的興起,Nvidia 的 GPU 需求量激增。這些昂貴的顯示卡提供了高效快速的 AI 訓練所需的平行處理能力。訓練過程依賴於 GPU 群集間的通信,以分享從訓練數據集中獲得的知識。
這種「GPU 之間的通信」需要精心設計的 GPU 群集,以最小化延遲並 maxim 化吞吐量。因此,特斯拉等公司正在投資建立由數千個 GPU 組成的實體「超集群」,這些 GPU 通常位於大型設施中。
由於這些嚴格的要求,訓練生成式 AI,特別是最複雜的模型,往往是一項資本密集型的事業,主要由特斯拉、Meta、OpenAI、Microsoft、Google 和 Anthropic 等資金充裕的公司所主導。
這些機構各有訓練方法,但普遍使用相似的硬體並嚴密控制 AI 訓練過程,使新進者或普通開發者很難與同樣參數的模型競爭。然而,Nous Research 倡導可訪問的、有力的 AI 開發,任何人都可以按需自定義,而不受限制。
DisTrO 的獨特之處
傳統的 AI 訓練方法需要在多個 GPU 之間同步完整的梯度,並依賴高帶寬的連接。相較之下,DisTrO 將通信開銷降低了四到五個數量級。
雖然具體的算法尚未全面披露,作者計劃很快分享更多細節。這一降幅是在不依賴摊銷分析的情況下實現的,且不妨礙收斂速度,使得大型模型能夠在一般消費者可用的較慢網路連接(下載 100 Mbps 和上傳 10 Mbps)上訓練。
研究團隊在 Meta 的 Llama 2(一種具有 12 億參數的大型語言模型)上測試了 DisTrO,結果顯示其訓練性能與傳統方法相當,且顯著減少了數據傳輸。他們指出,這個模型是 DisTrO 最小的有效模型,對於如何隨模型大小調整帶寬減少,仍不確定。
初步測試預示著在預訓練期間,潛在的帶寬降低可達 1000 倍至 3000 倍,後訓練可達 10000 倍,並且性能幾乎沒有明顯下降。他們還猜測,DisTrO 可以應用於訓練大型擴散模型,如 Stable Diffusion 等影像生成服務。
GPU 的持續需求
需要注意的是,DisTrO 仍然需要 GPU,但允許它們以全球分佈的方式運作,而非共同位於同一設施中。
具體而言,評估涉及 32 顆 H100 GPU,使用分散式數據並行(DDP)策略,每顆 GPU 將整個模型存儲在 VRAM 中。這一框架能夠對 DisTrO 的能力進行嚴格測試,證明其可以達到 AdamW + All-Reduce 的收斂率,同時顯著減少通信需求。
DisTrO 有可能顛覆傳統訓練方法而不降低模型質量,為大規模分佈式訓練提供可擴展的解決方案。通過降低對高速連接的需求,它使得即使是在標準網路服務的用戶之間也能進行協作模型訓練。
研究報告進一步探討了 DisTrO 對聯邦學習及去中心化訓練的影響。它的高效性也可能通過優化現有基礎設施並減少對大型數據中心的依賴,協助減緩 AI 訓練的環境影響。
此外,這些創新可能將大型模型訓練的範式從集中的高資源數據中心,轉變為更分散的協作方法,利用多樣化的計算資源。
Nous Research 和 DisTrO 的下一步
研究團隊邀請他人一起探索 DisTrO 的潛力。初步報告和其他材料已在 GitHub 上發布,他們積極尋求合作者以完善和擴展這項創新技術。
在 X 平台上,@kimmonismus 等 AI 影響者對這項研究表示讚賞,認為其可能會對該領域產生革命性影響,宣稱「這可能改變一切!」
透過 DisTrO,Nous Research 不僅提升了 AI 訓練能力,還促進了更具包容性的研究生態系統,以便釋放出人工智慧的重大進展。