來自Adobe Research與澳大利亞國立大學的研究團隊最近揭示了一項突破性的人工智慧(AI)模型,能在短短五秒內將單張2D圖像轉換為高品質的3D模型。這項創新成果在其研究論文《LRM: Large Reconstruction Model for Single Image to 3D》中詳細介紹,具有顛覆遊戲、動畫、工業設計、擴增實境(AR)和虛擬實境(VR)等多個領域的潛力。
研究人員表示:“想像一下,若能從任何物體的單張圖像瞬間創建一個3D形狀,這一目標驅動著我們進行廣泛的研究,旨在找到一種通用且高效的3D重建方法。”
高級訓練與海量數據集
不同於傳統方法聚焦於特定類別的小數據集,LRM採用可擴展的基於變壓器的神經網絡架構,擁有超過五億個參數。它在約一百萬個來自Objaverse和MVImgNet數據集的3D物體上進行訓練,能直接從輸入圖像預測神經輻射場(NeRF)。研究人員解釋道:“這種高容量模型與廣泛訓練數據的結合,使我們的模型具有高度的通用性,能夠從多樣的輸入中生成高品質的3D重建,包括真實世界的捕捉和生成模型。”
主要作者洪逸聰強調,LRM在單圖像3D重建領域的重要性,並指出:“據我們所知,LRM是首個擁有超過五億可學習參數的大規模3D重建模型,並在各類3D形狀和視頻數據上進行訓練。”
跨行業的變革潛力
LRM的應用範疇廣泛,從實用的工業設計到引人入勝的娛樂和遊戲體驗,這項技術有望簡化視頻遊戲和動畫中的3D模型創建,顯著減少時間和資源要求。在工業設計中,LRM能通過從2D草圖生成準確的3D模型,來加速原型製作。在AR/VR環境中,它承諾通過實時從2D圖像創建細緻的3D場景來增強用戶體驗。此外,能分析“真實捕捉”的能力讓用戶生成內容,實現3D建模的民主化。用戶或許能夠直接從智能手機照片生成高品質模型,開啟新的創意和商業機會。
進展與挑戰
儘管潛力巨大,研究人員承認LRM仍存在一些局限性,例如在遮蔽區域生成模糊紋理。然而,他們強調,訓練於大量數據集的大型變壓器模型在推進通用3D重建能力方面已取得成功。“我們希望這項研究能激發對能有效從任意圖像進行泛化的數據驅動3D重建模型的深入研究,”他們總結道。
欲了解關於LRM的卓越能力及從單張圖像創建的高保真3D模型示例,請訪問團隊的專案頁面。