蘋果推出Depth Pro:顛覆性AI模型革新3D視覺技術

Apple 的 AI 研究團隊推出了 Depth Pro,這是一款突破性的模型,旨在徹底改變機器的深度感知能力。該技術有潛力影響多個領域,包括增強現實(AR)和自主駕駛汽車。

Depth Pro 能夠僅利用一張 2D 圖像在 0.3 秒內生成詳細的 3D 深度圖,無需傳統的相機數據。根據研究論文《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》,這項進步為單眼深度估算樹立了重要里程碑,允許從單一圖像中推斷深度。

這項技術的應用範圍廣泛,特別是在需要實時空間感知的領域。以 Aleksei Bochkovskii 和 Vladlen Koltun 為首的 Depth Pro 團隊創造了業界最快且最準確的深度感知系統之一。

在比較測試中,Depth Pro 在捕捉微小細節如毛發質感及鳥籠鐵絲等複雜物體方面,超越了 Marigold、Depth Anything v2 和 Metric3D v2 等競爭對手。這項非凡的準確性在瞬間達成,為深度映射設定了新的標準。

傳統的單眼深度估算通常依賴多張圖像或元數據,如焦距。而 Depth Pro 克服了這些挑戰,通過標準 GPU 產生高解析度深度圖,同時捕捉到其他方法通常忽略的細節。

研究人員將 Depth Pro 的高效歸因於創新的多尺度視覺變壓器架構,這使得全局和細節圖像上下文的同時處理成為可能,顯著提升了速度和準確性。

Depth Pro 的一大亮點是其能夠估算相對和絕對深度,稱為「度量深度」,這對於像 AR 這樣需要精確將虛擬物體融入物理空間的應用至關重要。此外,Depth Pro 的零樣本學習能力使其能夠在多樣的圖像上有效運作,而無需進行廣泛的領域特定訓練。

作者解釋道:「Depth Pro 能夠在任意圖像上生成帶有絕對比例的度量深度圖,無需像相機內部參數這樣的元數據。」這種靈活性擴大了其潛在應用,從增強 AR 體驗到改善自主駕駛汽車的障礙物偵測。

Depth Pro 在各行各業引發了廣泛關注。在電子商務中,它可以讓用戶僅使用手機就能視覺化家具在家中的擺放。對於汽車行業而言,快速生成高品質深度圖的能力可以提高自駕汽車的導航和安全性。

研究團隊表示:「該方法旨在生成度量深度圖,以準確表示物體形狀和絕對比例,顯著降低傳統 AI 模型訓練的時間和成本。」深度估算中的一項關鍵挑戰——即所謂的「飛行像素」,造成畫面扭曲,已被 Depth Pro 有效解決,這一改進對於需要高準確度的三維重建和虛擬環境應用至關重要。該模型在邊界檢測中同樣表現出色,提供了圖像剪貼和醫學影像等任務所需的卓越分割能力。

為促進進一步創新,Apple 已將 Depth Pro 開源。模型的代碼和預訓練權重已在 GitHub 上公布,開發者和研究人員可以探索並優化這項技術。該庫中包含有關模型架構和預訓練檢查點的詳細信息,鼓勵他人基於 Apple 的基礎進行開發。

研究團隊歡迎對 Depth Pro 在機器人、製造業和醫療保健等各個領域的應用進行探索。正如他們所言:「我們在 https://github.com/apple/ml-depth-pro 釋出代碼和權重」,標誌著這項技術更廣泛旅程的開始。

隨著 AI 持續進化,Depth Pro 樹立了單眼深度估算的新標準,能夠從單張圖像實時創建高品質深度圖,對依賴空間感知的行業產生深遠影響。

Depth Pro 展示了尖端研究如何轉化為實用解決方案,展現了未來 AI 在增強與 3D 環境互動中的潛力。正如作者總結所言:「Depth Pro 在劃定物體邊界方面顯著優於所有先前工作,包括細微結構如頭髮、毛皮和植物。」這一發展將位置 Depth Pro 提升到改變從自主駕駛到 AR 等應用的高度,根本重塑機器與人類在三維空間中的互動。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles