构建可扩展的人工智能基础设施:聚焦能源效率
在最近举办的Hot Chips 2024大会上,OpenAI硬件基础设施负责人蔡杰(Trevor Cai)发表了主题演讲,题为《构建可扩展的人工智能基础设施》。蔡杰强调,提升计算资源的规模将显著增强人工智能的性能和实用性,这一见解对未来的AI发展至关重要。
Hot Chips是全球重要的会议,展示了处理器及相关技术的最新进展。今年的大会中,围绕人工智能的讨论尤为热烈,尤其是在数据中心能源需求激增的背景下。摩根士丹利的研究表明,生成式AI的电力消耗预计将在未来几年每年增加75%,到2026年,其能源使用量将与西班牙的总消耗水平相当。
能源效率解决方案的激增
在为期两天的Hot Chips 2024活动中,议题重点放在部署能源高效且可扩展的AI服务器上。在演讲中,蔡杰指出,随着计算能力的提升,AI基础设施的重大投资是实现显著收益所必需的。自2018年以来,前沿模型的计算需求大约增加了四倍。相比于训练最初的GPT-1模型只需几周时间,如今则需要庞大的GPU集群。
IBM展示了即将推出的Telum II处理器和Spyre加速器,宣传其降低能耗和物理占用的新型AI集成方法。NVIDIA则推出了其Blackwell AI集群架构,能够训练高达100万亿参数的模型,并利用Quasar量化系统来最小化能耗。英特尔、博通和SK海力士等其他公司也展示了能源高效的技术解决方案,展示了对日益增长的能源需求的共同关注。
能源需求与环境挑战
人工智能的快速发展推动了对更强大处理器的需求,导致数据中心的能源消耗达到前所未有的水平。彭博社报道,去年主要科技公司在数据中心基础设施上的投资高达1050亿美元。随着AI任务对计算能力的需求不断增加,国际能源署预测,到2026年,全球数据中心的能源消耗将与日本的电力使用量相当。
Hugging Face的负责人萨莎·卢奇奥尼(Sasha Luccioni)指出,虽然AI模型训练通常是在单轮中完成,但频繁查询会导致能源消耗增加。例如,向ChatGPT发送一次查询的能耗相当于让一只灯泡保持亮灯20分钟。这一需求对电力资源造成压力,并引发了环境担忧。
对此,科技公司正在探索更清洁的能源来源。亚马逊正在宾夕法尼亚州投资建设一个核能数据中心,以减少对传统电网的依赖。同时,谷歌正在开发专用于AI的专用芯片,显著提升能效。
NVIDIA的研究表明,其直接液冷系统可以将数据中心的能耗降低28%。然而,威斯康辛大学的辛克莱教授(Professor Sinclair)警告称,虽然单个任务的能效提高,但整体使用量的增加仍可能导致总能耗上升。这一现象被称为杰文斯悖论(Jevons Paradox),在历史上以及现代AI发展的背景下均适用。
结论
人工智能技术的快速发展与日益增长的能源需求并存,迫使科技公司寻找创新且可持续的解决方案。Hot Chips 2024的讨论反映了行业对能源高效技术的共同关注,为未来AI基础设施的发展指明了方向。