Des chercheurs en intelligence artificielle de ByteDance, la société mère de TikTok, ont dévoilé un modèle innovant nommé ImageDream, conçu pour créer des modèles 3D époustouflants à partir d'images. Ce modèle de pointe excelle dans la génération de diffusions multi-vues d'objets sous tous les angles, en utilisant une seule image comme entrée. Par exemple, en entrant une photo d'un bulldog portant un chapeau de pirate noir, ImageDream produira plusieurs perspectives du chien, puis élaborera un modèle 3D réaliste basé sur ces vues.
L'équipe de développement souligne que l'utilisation d'images pour générer des modèles 3D offre une méthode plus intuitive et simple pour les utilisateurs souhaitant exprimer leurs idées créatives. Cette approche est particulièrement bénéfique pour ceux qui ont des difficultés à transmettre leurs visions par écrit.
Bien que les modèles de génération 3D pilotés par l'IA ne soient pas nouveaux, ImageDream se distingue des systèmes précédents. L'équipe reconnaît s'être inspirée de modèles notables tels que Google DreamFusion, lancé en octobre dernier, et Point-E d'OpenAI, qui génère des sculptures 3D à partir d'entrées textuelles. Avant ImageDream, ByteDance avait également créé un modèle de génération 3D appelé MVDream, lancé en août. Ce modèle de diffusion se spécialise dans la production de rendus 3D de haute qualité à partir de descriptions textuelles, développé en collaboration avec l'Université de Californie à San Diego. MVDream permet des ajustements personnalisés pour la génération 3D, en utilisant des outils comme DreamBooth3D.
Ce qui distingue ImageDream, c’est sa capacité à créer des objets 3D avec une géométrie précise directement à partir d'images, renforçant ainsi le potentiel d'alignement image-texte par rapport à des modèles uniquement textuels comme MVDream. Le document de recherche souligne : « ImageDream surpasse les générateurs de modèles 3D en une seule image zéro-shot de pointe, comme Magic123, en termes de qualité de géométrie et de texture. »
Malgré ses capacités impressionnantes, ImageDream présente certaines limites. Il peut rencontrer des difficultés avec des détails complexes, notamment lors du rendu des traits du visage sur des avatars en plein corps, ce qui indique un besoin d'amélioration dans ces domaines.
L'application de l'IA dans la génération 3D représente un domaine en pleine expansion, avec des modèles comme ImageDream offrant des perspectives prometteuses pour la création d'actifs dans des environnements de réalité virtuelle (VR) et de réalité augmentée (AR), ainsi que dans les jeux vidéo. Parmi les objets générés par ImageDream, on trouve des katanas, des AK47, et même des personnages emblématiques comme Pikachu portant un chapeau.
Pour explorer les diverses créations 3D produites par ImageDream, visitez la page projet dédiée de ByteDance. Cependant, veuillez noter qu'il existe actuellement des problèmes d'accès concernant le code d'ImageDream sur cette page, et des demandes ont été formulées pour obtenir plus de précisions à ce sujet.