苹果的人工智能研究团队推出了Depth Pro,这是一种开创性模型,有望彻底改变机器的深度感知技术。该技术可能对增强现实(AR)和自主驾驶等多个领域产生深远影响。
Depth Pro能够仅用0.3秒从单张二维图像生成复杂的3D深度图,消除了对传统相机数据的需求。在研究论文《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》中详细介绍了这一突破,这标志着单目深度估计的重要里程碑,使从单张图像推断深度成为可能。
这项技术的应用前景广阔,尤其在需要实时空间感知的领域。由阿列克谢·博赫科夫斯基(Aleksei Bochkovskii)和弗拉德伦·科尔顿(Vladlen Koltun)领导的Depth Pro团队,开发出了一种速度最快、精度最高的深度感知系统。
在比较测试中,Depth Pro表现优于其他模型,包括Marigold、Depth Anything v2和Metric3D v2,能够捕捉细微的纹理细节,如毛发和鸟笼的细小金属丝。这种卓越的精确度在短短几毫秒内实现,为深度映射设定了新基准。
传统的单目深度估计通常依赖于多张图像或焦距等元数据,而Depth Pro则通过使用标准GPU生成高分辨率深度图,避免了这些挑战,同时无缝捕捉其他方法常常遗漏的细节。
研究人员将Depth Pro的高效性归因于一种创新的多尺度视觉变换器架构,该架构使得可以同时处理全局和细节图像上下文,从而显著改善了较慢和不精确的模型。
Depth Pro的一大特色是能够同时估计相对和绝对深度,即“度量深度”。这使得在增强现实等应用中能够实现精确的现实世界测量,因为虚拟物体需要被准确地整合到物理空间中。此外,Depth Pro的无监督学习能力使其能够在多种图像上有效工作,而无需进行大量特定领域的训练。
“Depth Pro能够在任意图像上生成带有绝对尺度的度量深度图,无需相机内参等元数据,”研究作者解释道。这种灵活性拓宽了其潜在应用,从提升增强现实体验到改善自主驾驶车辆的障碍物检测。
Depth Pro在多个行业引发了广泛关注。在电商领域,它可能让用户通过手机轻松看到家具在家中的摆放效果。在汽车行业,快速生成高质量深度图的能力可能增强自动驾驶汽车的导航和安全性。
研究团队表示,“该方法旨在生成度量深度图,以准确表示物体形状和绝对尺度,从而显著降低传统AI模型训练所需的时间和成本。”
在深度估计中被称为“飞行像素”的关键挑战,即视觉失真,已被Depth Pro有效解决。这一改进对于需要高精度的3D重建和虚拟环境应用至关重要。该模型在边界检测方面表现出色,提供了对图像抠图和医学影像等任务至关重要的优越分割。
为了促进进一步的创新,苹果开放了Depth Pro的源代码。该模型的代码和预训练权重已发布在GitHub上,开发者和研究人员可以探索和改进这项技术。该存储库中包括了关于模型架构和预训练检查点的详细信息,鼓励他人在苹果的基础上进行构建。
研究团队邀请各领域的探索者研究Depth Pro的应用,例如机器人技术、制造业和医疗健康。他们声明:“我们在 https://github.com/apple/ml-depth-pro 发布了代码和权重,”标志着这项技术更广泛应用的开始。
随着人工智能不断发展,Depth Pro为单目深度估计树立了新的速度和精度标准。其能力在于从单张图像实时创建高质量深度图,这将深刻影响依赖空间感知的多个行业。
Depth Pro展示了尖端研究如何转化为实际解决方案,体现了人工智能在增强与3D环境互动中的未来潜力。正如作者所总结的:“Depth Pro在 delineating 物体边界方面远超以往所有工作,包括毛发、皮毛和植物等细微结构。”这项发展使Depth Pro有望在自主驾驶、增强现实等应用中实现转变,根本重塑机器与人类在三维空间中的互动。