Les chercheurs d'Adobe réalisent la création de modèles 3D à partir d'images 2D en seulement 5 secondes grâce à une nouvelle avancée en intelligence artificielle.

Une équipe de recherche d'Adobe Research et de l'Australian National University a dévoilé un modèle d'intelligence artificielle (IA) révolutionnaire capable de transformer une seule image 2D en un modèle 3D de haute qualité en seulement cinq secondes. Ce travail novateur, détaillé dans leur article intitulé "LRM : Large Reconstruction Model for Single Image to 3D", pourrait révolutionner des secteurs tels que le jeu vidéo, l'animation, le design industriel, la réalité augmentée (RA) et la réalité virtuelle (RV).

Les chercheurs déclarent : « Imaginez si nous pouvions créer instantanément une forme 3D à partir d'une seule image de n'importe quel objet. Cet objectif a motivé des recherches approfondies pour trouver une approche générique et efficace de la reconstruction 3D. »

Formation Avancée avec des Ensembles de Données Massifs

Contrairement aux méthodes traditionnelles axées sur des catégories spécifiques et de plus petits ensembles de données, le LRM utilise une architecture de réseau de neurones basée sur un transformateur, dotée de plus de 500 millions de paramètres. Il est entraîné sur environ un million d'objets 3D provenant des ensembles de données Objaverse et MVImgNet, lui permettant de prédire un champ de radiance neurale (NeRF) directement à partir des images d'entrée. « Cette combinaison d'un modèle à haute capacité et de données d'entraînement vastes rend notre modèle très généralisable, capable de produire des reconstructions 3D de qualité à partir de diverses entrées, y compris des captures du monde réel et des modèles génératifs », expliquent les chercheurs.

Yicong Hong, le principal auteur, souligne l'importance du LRM dans le domaine de la reconstruction 3D à partir d'une seule image, notant : « À notre connaissance, le LRM est le premier modèle de reconstruction 3D à grande échelle avec plus de 500 millions de paramètres apprenables, entraîné sur une vaste gamme de formes 3D et de données vidéo provenant de différentes catégories. »

Potentialités Transformantes dans Divers Secteurs

Les applications du LRM sont vastes, allant de l'utilisation pratique dans le design industriel à des expériences de divertissement captivantes et de jeux vidéo. Cette technologie pourrait simplifier la création de modèles 3D pour les jeux vidéo et les animations, réduisant significativement le temps et les ressources nécessaires.

Dans le design industriel, le LRM pourrait accélérer le prototypage en générant des modèles 3D précis à partir de croquis 2D. Dans des environnements RA/RV, il promet d'améliorer l'expérience utilisateur en créant des décors 3D complexes à partir d'images 2D en temps réel. De plus, la capacité d'analyser des captures "dans la nature" permet de générer du contenu utilisateur, démocratisant ainsi la modélisation 3D. Les utilisateurs pourraient potentiellement créer des modèles de haute qualité directement à partir de photographies prises avec leur smartphone, ouvrant ainsi de nouvelles opportunités créatives et commerciales.

Avancées et Limites

Bien que le potentiel soit prometteur, les chercheurs reconnaissent que le LRM présente des limitations, comme la génération de textures floues dans les régions occluses. Cependant, ils soulignent le succès des grands modèles basés sur des transformateurs, entraînés sur de vastes ensembles de données, dans l’avancement des capacités de reconstruction 3D généralisées. « Nous espérons que notre recherche inspirera des investigations supplémentaires sur les modèles de reconstruction 3D pilotés par les données, capables de généraliser efficacement à partir d'images arbitraires », concluent-ils.

Pour en savoir plus sur les capacités impressionnantes du LRM et des exemples de modèles 3D de haute fidélité créés à partir d'images uniques, visitez la page projet de l'équipe.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles