Salesforce, le leader des logiciels d'entreprise, a lancé une nouvelle suite de modèles d'IA multimodaux open-source, nommée xGen-MM (ou BLIP-3). Cette nouveauté pourrait accélérer les avancées dans le développement de systèmes d'intelligence artificielle sophistiqués.
Le cadre xGen-MM, décrit dans un article publié sur arXiv par des chercheurs de Salesforce AI Research, se compose de modèles pré-entraînés, de jeux de données complets et de code de fin de tuning. Le modèle le plus grand, avec 4 milliards de paramètres, présente des performances compétitives sur divers benchmarks par rapport à d'autres modèles open-source similaires.
Les auteurs déclarent : « Nous open-sourçons nos modèles, nos jeux de données à grande échelle et notre code de fin de tuning pour faciliter les avancées dans la recherche sur les LMM. » Cette initiative marque un tournant dans la tendance aux modèles propriétaires, rendant potentiellement l'accès à la technologie d'IA multimodale de pointe plus démocratique.
Un schéma du cadre xGen-MM (BLIP-3) illustre le traitement des données intercalées d'images et de textes. Le modèle utilise un Vision Transformer pour encoder les images, un échantillonneur de jetons pour condenser l'information visuelle, et un modèle de langage pré-entraîné pour générer du texte, avec des pertes pertinentes appliquées aux jetons de texte.
L'innovation clé du xGen-MM réside dans sa capacité à gérer des « données intercalées » combinant plusieurs images et textes, considérées par les chercheurs comme « la forme la plus naturelle de données multimodales ». Cette capacité permet aux modèles d'effectuer des tâches complexes, telles que répondre à des questions sur de nombreuses images simultanément, ce qui est précieux dans des domaines variés tels que le diagnostic médical et les véhicules autonomes.
Le lancement inclut plusieurs variantes de modèles optimisées pour des tâches spécifiques : un modèle de base pré-entraîné, une version « instruction-tuned » pour suivre des directives, et un modèle « safety-tuned » visant à minimiser les sorties nuisibles. Ce choix reflète la reconnaissance croissante au sein de la communauté IA de la nécessité de concilier capacité et considérations éthiques.
La décision de Salesforce de rendre ces modèles open-source promet d'enrichir significativement l'innovation dans le domaine de l'IA multimodale. En offrant aux chercheurs et développeurs un accès à des modèles et jeux de données de haute qualité, Salesforce favorise une collaboration et une avancée plus larges, en contraste avec les stratégies fermées de certains géants technologiques.
Cependant, le lancement de tels modèles influents soulève des questions cruciales concernant les risques potentiels et les impacts sociétaux associés aux systèmes d'IA avancés. Bien que Salesforce ait intégré un tuning de sécurité pour répondre à ces préoccupations, les ramifications plus larges des modèles d'IA avancés largement accessibles continuent d'alimenter les discussions au sein de la communauté technologique et au-delà.
Les modèles xGen-MM ont été entraînés sur des jeux de données vastes, dont un jeu de données de un trillion de jetons d'images et de textes intercalés, connu sous le nom de « MINT-1T ». De plus, de nouveaux jeux de données ciblant la reconnaissance optique de caractères et le grounding visuel ont été développés, essentiels pour les systèmes d'IA interagissant naturellement avec l'environnement visuel.
À mesure que la technologie d'IA devient de plus en plus répandue, l'initiative open-source de Salesforce fournit aux chercheurs des outils essentiels pour améliorer leur compréhension et le développement de ces systèmes puissants. Ce mouvement établit également une nouvelle norme de transparence dans un domaine souvent critiqué pour son opacité, encourageant potentiellement d'autres entreprises technologiques à adopter des pratiques similaires dans leur recherche sur l'IA.
Dans une course à l'IA de plus en plus intense, la stratégie ouverte de Salesforce pourrait servir de facteur différenciateur crucial. En favorisant un environnement collaboratif autour de ses modèles, l'entreprise pourrait stimuler une innovation rapide et cultiver des relations positives au sein de la communauté de recherche. Toutefois, l'efficacité de cette approche dans le domaine concurrentiel des solutions d'IA pour entreprises reste à observer.
Le code, les modèles et les jeux de données pour xGen-MM sont accessibles sur le dépôt GitHub de Salesforce, avec d'autres ressources à venir sur le site du projet. À mesure que chercheurs et développeurs interagissent avec ces modèles, l'impact réel des contributions de Salesforce à l'IA multimodale se révélera progressivement dans les mois et années à venir.