À l'approche du premier anniversaire du lancement de ChatGPT, de nombreuses avancées ont été réalisées pour améliorer ce puissant modèle linguistique. OpenAI a intégré de nouvelles fonctionnalités, notamment la génération d'images grâce à DALL-E 3 et l'accès à des informations en temps réel via Bing. Toutefois, l'introduction des fonctions vocales et d'image constitue une mise à niveau transformative qui redéfinit les interactions des utilisateurs.
Au cœur de ces innovations se trouve GPT-4V, également connu sous le nom de GPT-4 Vision. Ce modèle multimodal de pointe permet aux utilisateurs d'interagir de manière fluide avec du texte et des images. Selon des tests menés par des chercheurs de Microsoft, principal partenaire et investisseur d'OpenAI, GPT-4V a montré des capacités exceptionnelles, certaines n'ayant jamais été testées auparavant. Leur étude, "The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)," souligne le potentiel étendu du modèle à traiter des inputs complexes, comme une image de menu accompagnée de son texte.
Qu'est-ce que GPT-4V ?
GPT-4V(ision) est un modèle d'IA multimodal révolutionnaire développé par OpenAI. Il permet aux utilisateurs de poser des questions sur des images téléchargées grâce à une fonctionnalité appelée réponse à des questions visuelles (VQA). À partir d'octobre, les abonnés de ChatGPT Plus à 20 $ par mois ou de la version Enterprise pourront accéder aux capacités de GPT-4V sur les plateformes desktop et iOS.
Fonctionnalités clés de GPT-4V
- Raisonnement visuel : Ce modèle comprend des relations visuelles complexes et des détails contextuels, lui permettant de répondre à des questions basées sur des images plutôt que de simplement identifier des objets.
- Suivi des instructions : Les utilisateurs peuvent fournir des commandes textuelles pour que le modèle réalise de nouvelles tâches de vision-langage sans effort.
- Apprentissage contextuel : GPT-4V démontre une robuste capacité d'apprentissage par quelques exemples, lui permettant de s'adapter à de nouvelles tâches avec peu d'exemples.
- Référencement visuel : Le modèle reconnaît des indices visuels comme des flèches et des cadres, facilitant le suivi précis des instructions.
- Légende dense : GPT-4V peut produire des descriptions détaillées en plusieurs phrases qui reflètent des relations de contenu complexes.
- Comptage : Ce modèle peut compter avec précision les objets dans une image selon les requêtes des utilisateurs.
- Programmation : Il démontre la capacité de générer du code—comme le parsing JSON—basé sur des entrées visuelles.
Comparé aux précédents modèles multimodaux, GPT-4V améliore significativement la compréhension de la vision-langage, soulignant son potentiel transformateur dans les applications d'IA.
Limitations de GPT-4V
Malgré ses capacités impressionnantes, GPT-4V présente des limites. Les utilisateurs cherchant à l'utiliser pour des tâches très complexes peuvent rencontrer des défis, surtout face à des invites uniques ou spécifiquement conçues. Sa performance est également restreinte avec des échantillons nouveaux ou non vus, certaines situations complexes nécessitant des prompts adaptés pour fonctionner efficacement.
L'émergence des grands modèles multimodaux (LMM)
L'essor de l'IA multimodale représente une évolution cruciale dans la technologie. Les modèles de génération de texte sont désormais enrichis par leur capacité à traiter des images, simplifiant ainsi les requêtes et interactions des utilisateurs. Cette évolution rapproche OpenAI de l'atteinte de l'intelligence artificielle générale (AGI), un objectif longtemps souhaité au sein de la communauté IA. L'organisation est déterminée à créer une AGI non seulement puissante, mais aussi sûre pour la société, incitant les gouvernements à établir des règlements pour superviser son développement.
OpenAI n'est pas seule dans cette quête ; d'autres géants de la technologie, comme Meta, investissent dans la recherche en IA multimodale. Sous la direction du lauréat du prix Turing Yann LeCun, Meta développe activement des modèles tels que SeamlessM4T, AudioCraft et Voicebox pour créer un métavers inclusif. De plus, le tout nouveau Frontier Model Forum—composé des principaux développeurs d'IA tels qu'OpenAI, Microsoft, Google et Anthropic—s'emploie à faire avancer les modèles multimodaux de nouvelle génération, soulignant l'importance croissante de ce domaine dans la recherche en IA.
Avec ces développements, le paysage de l'intelligence artificielle évolue rapidement, présentant un immense potentiel pour des applications créatives et une expérience utilisateur renforcée.