Le président d'OpenAI, Greg Brockman, a récemment partagé ce qui semble être la première image publique générée par le nouveau modèle GPT-4o sur son compte X.
L'image représente une personne portant un T-shirt noir orné du logo d'OpenAI, en train d'écrire sur un tableau noir. Le texte indique : « Transfert entre les modalités. Supposons que nous modélisions directement P (texte, pixels, son) avec un grand transformateur autoregressif. Quels sont les avantages et les inconvénients ? »
Lancé lundi, le modèle GPT-4o améliore la famille précédente de GPT-4 (y compris GPT-4, GPT-4 Vision et GPT-4 Turbo) en offrant un traitement plus rapide, des coûts réduits et une meilleure rétention d'informations à partir de diverses entrées, telles que l'audio et les visuels.
L'approche innovante d'OpenAI pour former GPT-4o avec des jetons multimédias élimine la nécessité de convertir d'abord les données audio et visuelles en texte. Cela permet au modèle d'analyser et d'interpréter directement ces formats multimédias, aboutissant à un fonctionnement plus fluide et efficace par rapport aux anciens modèles GPT-4, qui reposaient sur des modèles interconnectés.
Comparer la nouvelle image à celles générées par DALL-E 3 d'OpenAI—publié en septembre 2023—met en lumière des améliorations significatives en termes de qualité, de photoréalisme et de précision textuelle avec le modèle GPT-4o.
Actuellement, les capacités de génération d'images du GPT-4o ne sont pas accessibles au public. Comme l'a souligné Brockman dans son post, « L'équipe travaille dur pour les rendre disponibles au monde. »