Meta dévoile Chameleon : un modèle multimodal de pointe révolutionnant l'intégration de l'IA.

Alors que la concurrence s'intensifie dans le domaine de l'IA générative, Meta a dévoilé un aperçu de son modèle multimodal innovant, Chameleon. Contrairement aux modèles existants qui combinent des éléments de différentes modalités, Chameleon est conçu nativement pour la multimodalité.

Bien que ces modèles ne soient pas encore disponibles au public, les expériences préliminaires révèlent que Chameleon excelle dans des tâches telles que la légende d'images et la réponse aux questions visuelles (VQA), tout en restant compétitif dans des défis uniquement textuels.

L'architecture de Chameleon

Chameleon utilise une architecture “token-based mixed-modal” à fusion précoce, un design de pointe qui traite les images, le texte, le code et plus encore de manière entrelacée. En convertissant des images en tokens discrets, à l'instar des modèles de langage qui traitent les mots, Chameleon emploie un vocabulaire unifié intégrant texte, code et tokens d'image. Cela permet à la même architecture de transformer des séquences contenant à la fois du texte et des images de manière fluide.

Les chercheurs notent que le modèle comparable le plus proche est Google Gemini, qui utilise également une approche de fusion précoce. Cependant, alors que Gemini s'appuie sur des décodeurs d'image séparés lors de la génération, Chameleon fonctionne comme un modèle de bout en bout, traitant et générant des tokens simultanément. Cet espace de tokens unifié permet à Chameleon de générer des séquences entrelacées de texte et d'images sans dépendre de composants spécifiques à une modalité.

Surmonter les défis de la fusion précoce

Malgré les avantages de la fusion précoce, elle pose des défis significatifs en matière d'entraînement et d'évolutivité du modèle. Pour résoudre ces problèmes, l'équipe de recherche a mis en œuvre plusieurs modifications architecturales et techniques d'entraînement. Leur étude présente diverses expériences et leur impact sur les performances du modèle.

Chameleon suit un processus d'entraînement en deux étapes, utilisant un ensemble de données comprenant 4,4 trillions de tokens, incluant du texte, des paires image-texte et des séquences entrelacées. L'entraînement a impliqué des versions de Chameleon avec 7 milliards et 34 milliards de paramètres, exécutées sur plus de 5 millions d'heures de ressources GPU Nvidia A100 80GB.

Les performances de Chameleon

Les résultats publiés dans l'article révèlent que Chameleon excelle tant dans les tâches uniquement textuelles que multimodales. Sur des benchmarks pour la réponse aux questions visuelles (VQA) et la légende d'images, Chameleon-34B atteint des résultats de pointe, surpassant des modèles tels que Flamingo, IDEFICS et Llava-1.5. Chameleon démontre de solides performances avec significativement moins d'exemples d'entraînement contextuels et des tailles de modèle plus petites dans les évaluations pré-entraînées et ajustées.

Dans un domaine où les modèles multimodaux peuvent avoir des difficultés avec des tâches unimodales, Chameleon maintient une performance compétitive sur des benchmarks uniquement textuels, s’alignant avec des modèles tels que Mixtral 8x7B et Gemini-Pro sur des tâches de raisonnement de bon sens et de compréhension de lecture.

Notamment, Chameleon permet un raisonnement et une génération avancés en mode mixte, en particulier pour les requêtes nécessitant du texte et des images entrelacés. Les évaluations humaines montrent que les utilisateurs préfèrent les documents multimodaux générés par Chameleon.

Perspectives d'avenir

Récemment, OpenAI et Google ont lancé de nouveaux modèles multimodaux, bien que les détails soient encore rares. Si Meta maintient sa transparence et publie les poids de Chameleon, cela pourrait servir d'alternative ouverte aux modèles privés.

L'approche de fusion précoce ouvre également la voie à de futures recherches, alors que de plus en plus de modalités sont intégrées. Des startups en robotique, par exemple, explorent déjà comment combiner des modèles de langage avec des systèmes de contrôle robotique. L'impact potentiel de la fusion précoce sur les modèles de fondation en robotique sera fascinant à observer.

En résumé, Chameleon représente une avancée significative vers la réalisation de modèles de fondation unifiés capables de raisonner de manière flexible sur et de générer du contenu multimodal.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles