Nous Research本月引起了轰动,发布了其开源的Llama 3.1变体——Hermes 3。现在,这个专注于开发“个性化且无约束AI”模型的小型研究团队又推出了一项突破性创新:DisTrO(互联网分布式训练)。这个新型优化程序显著减少了在AI模型训练过程中GPU(图形处理单元)之间所需的数据传输。
DisTrO使全球的个人和机构能够通过家庭级互联网连接协作训练先进的AI模型,摆脱大型企业主导训练过程的局面。在最近发布的技术论文中,Nous Research表示,DisTrO的效率相比流行的All-Reduce训练算法提高了857倍,数据传输量也从74.4吉字节减少到仅86.8兆字节,每个训练步骤的性能下降轻微。研究结果已在下表中总结。
DisTrO的最终目标是让更多人能够接触强大的AI模型训练,从而在没有企业壁垒的情况下进行探索和实验。
AI训练面临的挑战:巨大的硬件需求
如前所述,随着生成AI的兴起,Nvidia的GPU需求激增。这些昂贵的显卡提供了高效、迅速的AI训练所需的并行处理能力。训练过程严重依赖GPU集群之间的通信,以共享从训练数据集中获取的见解。
这种“跨GPU通信”需要精心构建的GPU集群,以最小化延迟并最大化吞吐量。因此,特斯拉等公司正在投资建设物理“超级集群”,这些集群包括了成千上万的GPU,放置在大型设施中。
由于这些严格的要求,尤其是在训练最复杂的生成AI模型时,训练往往是一项资金密集型的工作,主要由特斯拉、Meta、OpenAI、微软、谷歌和Anthropic等资金充裕的大公司占据主导地位。
这些组织各自有不同的训练方法,但通常都使用相似的硬件,并严格控制他们的AI训练过程,这使得新手或业余开发者在与参数相似的模型竞争时面临挑战。然而,Nous Research则主张开发可访问且强大的AI,让任何人都能定制,无需限制。
DisTrO的独特之处
传统的AI训练方法需要在多个GPU之间同步完整的梯度,并依赖于高速带宽连接。相比之下,DisTrO将通信开销降低了四到五个数量级。
尽管能实现这一效率的具体算法尚未完全披露,作者计划很快分享更多细节。该优化在不依赖摊销分析或影响收敛速度的情况下完成,允许在较慢的互联网连接上训练大规模模型——如100 Mbps下载和10 Mbps上传,这在消费者中是广泛可用的。
研究团队使用Meta的Llama 2(一个12亿参数的大型语言模型)测试了DisTrO。结果表明,训练性能与传统方法相当,同时显著减少了数据传输。他们表示,该模型是使用DisTrO的最小有效模型,仍不确定带宽降低与模型规模的关系。
初步测试显示,在预训练阶段,可能存在1000至3000倍的带宽减少,而在后训练阶段,减少可达10000倍,同时性能无明显下降。他们还推测,DisTrO可能适用于训练大型扩散模型,例如Stable Diffusion及类似的图像生成服务。
GPU的持续需求
需要注意的是,DisTrO仍然需要GPU,但允许它们以全球分布的方式运行,而不是集中在同一个设施中。具体来说,评估过程中使用了32个H100 GPU,采用分布式数据并行(DDP)策略,每个GPU在VRAM中存储完整模型。这一框架使DisTrO的能力得到了严格测试,证明其能够匹配AdamW+All-Reduce的收敛速度,同时显著降低了通信需求。
DisTrO可能会颠覆传统的训练方法,而不牺牲模型质量,提供一个可扩展的大规模分布式训练解决方案。通过降低对高速连接的需求,它使得在去中心化网络中进行协作模型训练成为可能,即使用户使用的是标准互联网服务。
研究报告进一步探讨了DisTrO在联邦学习和去中心化训练中的应用。其高效性也可通过优化现有基础设施,减少对大型数据中心的依赖,从而减轻AI训练对环境的影响。此外,这些创新可能会将大规模模型训练的范式从集中式的资源密集型数据中心转变为更加分散和协作的方法,利用多种计算资源。
Nous Research和DisTrO的未来
研究团队邀请其他人一同探索DisTrO的潜力。初步报告和补充材料已经在GitHub上发布,他们积极寻求合作伙伴共同完善和扩展这项创新技术。
AI领域的影响者如@kimmonismus在X社交平台上称赞这一研究可能会对该领域带来变革,表示:“这可能会改变一切!”
通过DisTrO,Nous Research不仅提升了AI训练能力,并且促进了一个更加包容的研究生态系统,从而开启了人工智能重大的进步。