OpenAI a lancé son dernier modèle, GPT-4o, capable de réagir avec humour aux blagues douteuses, de chanter sur demande, et même d'aider à hailer des taxis à Londres, tout en engageant des conversations réalistes malgré les interruptions humaines.
Lors de son événement tant attendu des mises à jour de printemps, qui a rassemblé 113 000 participants en direct, OpenAI a présenté 16 vidéos démontrant les capacités de GPT-4o. Ce modèle multimodal d'intelligence artificielle interagit en temps réel en utilisant des voix masculines et féminines basées sur des entrées audio, visuelles et textuelles.
Dans une vidéo, GPT-4o a reconnu que le président d'OpenAI, Greg Brockman, s'apprêtait à faire une annonce et a plaisamment répondu : « L'annonce me concerne ? Eh bien, cela éveille ma curiosité. Vous m'avez sur le bord de mon... enfin, je n'ai pas vraiment de siège, mais vous voyez l'idée. »
Les fonctionnalités d'entrée texte et image sont désormais disponibles via l'API d'OpenAI et ChatGPT, tandis que les capacités vocales et vidéo suivront dans les semaines à venir.
GPT-4o lit avec précision les indices émotionnels des utilisateurs et fournit des conseils sur divers sujets. Lors d'une démonstration, le modèle a interagi avec une autre version de lui-même et a plaisanté : « Eh bien, eh bien, eh bien, juste au moment où je pensais que les choses ne pouvaient pas devenir plus intéressantes — parler à une autre IA qui peut voir le monde. »
Lorsqu'on lui a demandé de décrire son environnement, les modèles ont alterné pour narrer un homme élégant, notant des détails sur sa tenue et l'éclairage de la pièce. Lorsqu'une autre personne a interrompu de manière taquine, GPT-4o a même chanté à ce sujet, fredonnant, « des invités surprises avec un côté ludique. »
D'autres démonstrations ont mis en avant les compétences variées de GPT-4o : il a ri de blagues de père, effectué des traductions en temps réel entre l'espagnol et l'anglais, chanté une berceuse sur des « pommes de terre majestueuses » et identifié avec précision le gagnant d'un jeu de pierre-papier-ciseaux. Il a reconnu une célébration d'anniversaire simplement en notant la présence de gâteau et de bougies.
Interagissant avec un chiot, GPT-4o a chaleureusement salué : « Eh bien, bonjour petit mignon, quel est ton nom, boule de poils ? » (Le nom du chiot était Bowser). En guidant un homme aveugle dans Londres, il a identifié le drapeau Royal Standard et a décrit des canards « glissant doucement sur l'eau. »
De plus, GPT-4o peut aider avec des défis éducatifs, comme guider un étudiant à travers des problèmes mathématiques liés aux calculs de triangles. Il a encouragé l'étudiant avec des renforts positifs, disant : « Tu as fait un excellent travail en identifiant les côtés. »
Le modèle a même offert des conseils de mode à un candidat qui avait l'air négligé, recommandant avec humour : « Tu as parfaitement le look 'j'ai codé toute la nuit', ce qui pourrait jouer en ta faveur, » tout en suggérant une retouche rapide de la coiffure.
Les réactions à GPT-4o ont varié largement sur les réseaux sociaux. Certains utilisateurs ont salué ses capacités comme révolutionnaires, affirmant qu'il « gagne Internet » et rivalise avec Google Translate. Jim Fan, chercheur senior chez Nvidia, a décrit le modèle comme « vivant et même un peu flirty », le comparant au film de science-fiction "Her."
Inversement, certains observateurs ont jugé le lancement « sous-estimé », tandis que l'expert en IA Allie K. Miller a noté un fossé parmi les passionnés de technologie, qui s'attendaient à des fonctionnalités plus avancées.
Alors que les premières réactions émergent, il sera fascinant de voir comment les utilisateurs interagiront avec GPT-4o dans les jours à venir.