Apples KI-Forschungsteam hat Depth Pro vorgestellt, ein bahnbrechendes Modell, das die Tiefenwahrnehmung in Maschinen revolutionieren könnte. Diese Technologie hat das Potenzial, viele Branchen zu beeinflussen, darunter Augmented Reality (AR) und autonome Fahrzeuge.
Depth Pro erstellt in nur 0,3 Sekunden komplexe 3D-Tiefenkarten aus einem einzelnen 2D-Bild und benötigt dabei keine herkömmlichen Kameradaten. In dem Forschungsbericht „Depth Pro: Sharp Monocular Metric Depth in Less Than a Second“ wird dieser Fortschritt als bedeutender Meilenstein in der monokularen Tiefenschätzung dargestellt, der es ermöglicht, Tiefe aus einem einzigen Bild abzuleiten.
Die Anwendungen dieser Technologie sind weitreichend, insbesondere in Bereichen, die Echtzeit-Raumwahrnehmung erfordern. Unter der Leitung von Aleksei Bochkovskii und Vladlen Koltun hat das Depth Pro-Team eines der schnellsten und genauesten Systeme zur Tiefenwahrnehmung entwickelt.
In Vergleichstests hat Depth Pro seine Mitbewerber wie Marigold, Depth Anything v2 und Metric3D v2 übertroffen, indem es selbst kleinste Details wie die Textur von Tierhaaren und komplexe Objekte wie die Drähte eines Vogelkäfigs erfasst. Diese bemerkenswerte Genauigkeit wird in einem Bruchteil einer Sekunde erreicht und setzt einen neuen Maßstab für Tiefenmessung.
Traditionelle monokulare Tiefenschätzungen basieren oft auf mehreren Bildern oder Metadaten wie Brennweiten. Depth Pro umgeht diese Herausforderungen, indem es eine Standard-GPU nutzt, um hochauflösende Tiefenkarten zu erstellen und dabei nahtlos feine Details zu erfassen, die andere Methoden oft übersehen.
Die Forscher führen die Effizienz von Depth Pro auf eine innovative Multi-Scale Vision Transformer Architektur zurück, die die gleichzeitige Verarbeitung globaler und detaillierter Bildkontexte ermöglicht – und damit die langsameren, ungenaueren Modelle erheblich verbessert.
Ein herausragendes Merkmal von Depth Pro ist seine Fähigkeit zur Schätzung sowohl relativer als auch absoluter Tiefe, auch als „metrische Tiefe“ bezeichnet. Dies ermöglicht präzise Messungen in der realen Welt, die für Anwendungen wie AR von entscheidender Bedeutung sind, bei denen virtuelle Objekte exakt in physische Räume integriert werden müssen. Darüber hinaus kann Depth Pro dank seiner Zero-Shot-Learning-Fähigkeit effektiv mit verschiedenen Bildern arbeiten, ohne umfangreiche domänenspezifische Schulungen zu benötigen.
„Depth Pro generiert metrische Tiefenkarten mit absolutem Maßstab aus beliebigen Bildern, ohne Metadaten wie Kameraintrinsiken zu benötigen“, erklären die Autoren. Diese Flexibilität erweitert die möglichen Anwendungen, von der Verbesserung von AR-Erlebnissen bis hin zur Verbesserung der Hinderniserkennung in autonomen Fahrzeugen.
Depth Pro sorgt in verschiedenen Branchen für Aufsehen. Im E-Commerce könnte es Nutzern ermöglichen, zu visualisieren, wie Möbel in ihre Wohnungen passen, einfach mit ihrem Smartphone. Im Automobilsektor könnte die Fähigkeit, schnell hochwertige Tiefenkarten zu generieren, die Navigation und Sicherheit von selbstfahrenden Autos verbessern.
Laut dem Forschungsteam „ist die Methode darauf ausgelegt, metrische Tiefenkarten zu erzeugen, die Objektformen und absolute Maßstäbe genau darstellen und die Zeit sowie Kosten im Vergleich zu traditionellen KI-Modelltrainings erheblich reduzieren.“
Eine der größten Herausforderungen bei der Tiefenschätzung – die als „fliegende Pixel“ bezeichnet werden und visuelle Verzerrungen verursachen – wurde von Depth Pro effektiv gelöst. Diese Verbesserung ist entscheidend für Anwendungen, die hohe Genauigkeit in der 3D-Rekonstruktion und in virtuellen Umgebungen erfordern. Das Modell glänzt zudem in der Kantenerkennung und liefert überlegene Segmentierungen, die für Aufgaben wie Bildmatting und medizinische Bildgebung von Bedeutung sind.
In einem strategischen Schritt zur Förderung weiterer Innovationen hat Apple Depth Pro quelloffen gemacht. Der Code des Modells und die vortrainierten Gewichte sind auf GitHub verfügbar, sodass Entwickler und Forscher die Technologie erkunden und verfeinern können. Das Repository enthält umfassende Informationen zur Architektur des Modells und zu den vortrainierten Checkpoints, was andere ermutigt, auf Apples Grundlage aufzubauen.
Das Forschungsteam lädt zur Erkundung der Anwendungen von Depth Pro in Bereichen wie Robotik, Fertigung und Gesundheitswesen ein. Wie sie sagen: „Wir veröffentlichen Code und Gewichte unter https://github.com/apple/ml-depth-pro“, was den Beginn einer breiteren Reise für diese Technologie signalisiert.
Während sich KI weiterentwickelt, setzt Depth Pro einen neuen Standard für Geschwindigkeit und Genauigkeit in der monokularen Tiefenschätzung. Seine Fähigkeit, in Echtzeit hochqualitative Tiefenkarten aus Einzelbildern zu erstellen, kann tiefgreifende Auswirkungen auf Industrien haben, die auf Raumwahrnehmung angewiesen sind.
Indem es zeigt, wie modernste Forschung in praktische Lösungen übersetzt werden kann, verkörpert Depth Pro die Zukunft der KI zur Verbesserung der Interaktion mit 3D-Umgebungen. Wie die Autoren abschließend feststellen: „Depth Pro übertrifft alle vorherigen Arbeiten bei der Abgrenzung von Objektgrenzen, einschließlich feiner Strukturen wie Haar, Fell und Vegetation.“ Diese Entwicklung positioniert Depth Pro, um Anwendungen von autonomem Fahren bis zu AR zu transformieren und die Interaktion zwischen Maschine und Mensch mit dreidimensionalen Räumen grundlegend zu verändern.