xAI d’Elon Musk a lancé son premier modèle multimodal, Grok-1.5 Vision (Grok-1.5V), capable de comprendre non seulement le texte, mais aussi divers types de données visuelles, y compris des documents, diagrammes, graphiques, captures d'écran, et photographies. Ce modèle sera bientôt accessible aux premiers testeurs et aux utilisateurs actuels de Grok.
Selon un article de blog de la société, "Grok-1.5V rivalise avec les principaux modèles multimodaux dans plusieurs domaines, tels que le raisonnement pluridisciplinaire et la compréhension visuelle des diagrammes scientifiques, documents, captures d'écran et images."
Cette annonce fait suite à la récente présentation du modèle de chatbot mis à jour, Grok-1.5. xAI a montré sept exemples illustrant les capacités de Grok-1.5V, notamment la transformation d'un organigramme sur tableau blanc en code Python, la génération d'une histoire du soir à partir d'un dessin d'enfant, l'explication de mèmes, la conversion de tableaux en fichiers CSV, et l'évaluation de l'état des terrasses en bois pour détecter des signes de pourriture.
xAI affirme que Grok-1.5V a surpassé des modèles concurrents tels que GPT-4V, Claude 3 Sonnet, Claude 3 Opus, et Gemini Pro 1.5 lors de diverses évaluations. La société met en avant la performance supérieure de Grok-1.5V sur l’indicateur RealWorldQA, une nouvelle métrique développée pour évaluer la compréhension spatiale dans des situations réelles.
RealWorldQA a été entraîné sur plus de 700 images, chacune associée à des questions et réponses spécifiques. Le jeu de données comprend une gamme d'images anonymisées, y compris celles capturées depuis des véhicules. xAI prévoit de rendre RealWorldQA public sous une licence Creative Commons.
Alors qu'xAI continue d'évoluer, l'entreprise vise à rivaliser avec OpenAI et d'autres leaders du secteur, après le lancement de son chatbot en novembre 2023. Le lancement de Grok-1.5V survient peu après qu'xAI ait rendu Grok AI open source. Cependant, la société a été confrontée à des controverses, y compris des allégations selon lesquelles le chatbot Grok aurait fourni des conseils sur des activités illégales.
Malgré ces défis, xAI reste déterminée à développer une "intelligence artificielle générale bénéfique" capable de comprendre l'univers. La société a annoncé qu'elle introduira des mises à jour significatives pour améliorer les capacités de compréhension et de génération multimodales de Grok AI dans les mois à venir.