Adobe研究人员通过新AI突破实现仅需5秒将2D图像转化为3D模型

来自Adobe研究和澳大利亚国立大学的研究团队揭示了一种创新的人工智能(AI)模型,该模型能在五秒钟内将单张2D图像转化为高质量的3D模型。这项名为“LRM:大型重建模型用于单幅图像转3D”的研究成果,有潜力在游戏、动画、工业设计、增强现实(AR)和虚拟现实(VR)等多个领域引发变革。

研究人员表示:“想象一下,如果我们能够从任何物体的单张图像瞬时创建出3D形状。这一目标驱动了我们在寻找通用和高效的3D重建方法上开展广泛研究。”

先进的数据训练

不同于传统的专门聚焦于特定类别和较小数据集的方法,LRM使用了一种可扩展的基于转换器的神经网络架构,拥有超过5亿个参数。它在大约100万个3D对象上进行训练,这些对象来源于Objaverse和MVImgNet数据集,使它能够直接从输入图像预测神经辐射场(NeRF)。

“高容量模型与广泛训练数据的结合,使我们的模型具有出色的通用性,能够从各种输入中生成高质量的3D重建,包括现实场景捕捉和生成模型,”研究人员解释道。

首席作者Yicong Hong强调,LRM在单图像3D重建领域的重要性,他提到:“据我们所知,LRM是第一个超过5亿可学习参数的大规模3D重建模型,训练涵盖多种类的3D形状和视频数据。”

改变各行业的潜力

LRM的应用前景广泛,涵盖实用的工业设计到引人入胜的娱乐和游戏体验。这项技术可以简化视频游戏和动画的3D模型创建,大幅减少时间和资源的需求。

在工业设计中,LRM可以从2D草图中快速生成准确的3D模型,加速原型制作。在AR/VR环境中,它承诺通过实时将2D图像转化为复杂的3D场景来提升用户体验。此外,能够分析“野外”捕捉的能力使用户生成内容成为可能,民主化3D建模。用户可能通过智能手机照片直接生成高质量模型,从而开辟新的创造性和商业机会。

进展与局限

虽然潜力巨大,研究人员承认LRM仍存在一些局限性,例如在遮挡区域生成模糊纹理。然而,他们强调,在大量数据集上训练的大型转换器模型在推动通用3D重建能力方面取得的成功。

“我们希望我们的研究能够激发对数据驱动3D重建模型的进一步探索,促使其有效地从任意图像中进行泛化。”他们总结道。

欲了解LRM的出色能力及通过单张图像创建的高保真3D模型的示例,请访问该团队的项目页面。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles