英伟达正通过推出项目GR00T,彻底改变机器人技术。该项目是一款先进的多模态人工智能,旨在为未来的人形机器人赋能。
在圣荷西麦肯利会议中心举办的GTC大会上,英伟达首次展示了项目GR00T。该项目利用通用基础模型,使人形机器人能够处理文本、语音、视频和实时演示等输入,从而执行特定任务。项目借助英伟达的艾萨克机器人平台,包括一个专注于强化学习的新艾萨克实验室。
英伟达首席执行官黄仁勋表示:“开发通用人形机器人的基础模型是当今人工智能领域最具挑战性的任务之一。”他强调,各类技术的融合为全球机器人开发者提供了显著的进步潜力。
为了帮助企业充分利用GR00T,英伟达推出了专为人形机器人设计的Jetson Thor芯片。公司还宣布了一系列重大改进,以支持开发具备AI功能的工业操作臂和能在复杂环境中导航的机器人。
GR00T项目的前景
虽然这个名字让人联想到漫威的格鲁特,但实际上它代表的是“通用机器人00技术”。英伟达表示,GR00T旨在理解自然语言文本、语音、视频和实时演示,使其能够模仿人类动作,具备灵活性与其他技能,以在现实世界中导航和互动。
这一技术的进步不仅提升了人形机器人的能力,也简化了开发和部署流程。通过文本和演示等输入,任何有权限的人都可以编程这些机器人。
在GTC的主题演讲中,黄仁勋演示了多家公司的GR00T驱动人形机器人完成的各种任务,包括Agility Robotics、Apptronik、Fourier Intelligence和Unitree Robotics。英伟达的深普·塔拉在向媒体介绍GR00T时表示,该项目利用了最新的生成式AI和变换器技术,尽管有关其全面能力的具体细节目前仍然有限。
生成式AI领军企业OpenAI也在探索具身AI,支持初创公司如1X Technologies和Figure。Figure最近展示了一款机器人执行日常琐事,如捡拾垃圾,使用了OpenAI开发的大型视觉语言模型。
项目GR00T为人形机器人提供智能,使其能够学习执行各种有用的任务。塔拉在媒体采访中提到,虽然当前详细的内部架构信息尚无法提供,但未来会分享GR00T的更多能力。现在,只有部分人形机器人开发者获得了这个模型的早期访问权限,而英伟达计划很快向更多开发者开放。
Jetson Thor计算平台
为确保人形机器人能够操作复杂的多模态模型如GR00T,英伟达推出了Jetson Thor计算平台。该高性能计算系统建立在Thor SoC基础上,配备强大的CPU集群和下一代Nvidia Blackwell架构的GPU,能提供每秒800万亿次的8位浮点AI性能。塔拉强调,这款GPU性能是此前Jetson Orin版本的八倍,CPU性能也提高了2.6倍。
新的艾萨克机器人工具
英伟达利用其艾萨克机器人平台推动项目GR00T的发展,为开发者提供一套全面的AI机器人设计、模拟和部署框架。该项目使用新开设的艾萨克实验室,一个GPU加速的虚拟环境,采用并行模拟进行模型的训练和测试。此外,OSMO计算编排服务支持在英伟达DGX和OVX系统上管理训练和模拟工作负载。
艾萨克机器人平台还扩展了两项针对性解决方案:艾萨克操作手和艾萨克感知器。艾萨克操作手提供GPU加速库和基础模型,提升机器人手臂的灵活性和运动能力,包括物体检测、估计6D姿态、跟踪及抓取的详细预测。相应地,艾萨克感知器利用AI算法的360度多相机视觉能力,支持机器人在复杂环境中的导航,增强3D感知和周围环境意识。
英伟达正在通过Nova Orin开发工具包提供这项技术,并与ArcBest、比亚迪和KION集团等合作伙伴协作,提升其制造和仓储中心的自主移动机器人功能。
“将艾萨克感知器平台整合到我们的Vaux智能自主AMR叉车和伸缩式叉车中,能够提升感知、语义导航和物体检测中的3D映射能力,”ArcBest首席创新官迈克尔·纽西提到。
预计艾萨克平台的新功能将在今年第二季度推出,而项目GR00T仍处于早期访问阶段。英伟达正在接受更多人形机器人开发者的申请,计划未来将这一项目更广泛地面向公众发布。