Le jour tant attendu est enfin arrivé : ChatGPT évolue vers une expérience d'IA plus chaleureuse, capable de rire lorsque vous partagez une blague ou de répondre par un « aww » lorsque vous faites preuve de bienveillance. Ces fonctionnalités ne représentent que le début des annonces passionnantes d'OpenAI. Lors du récent événement de mise à jour du printemps, l'entreprise a présenté son dernier modèle de langage, le GPT-4o. Cette mise à jour introduit non seulement une application de bureau pour ChatGPT, mais améliore également la rapidité et la performance, devenant ainsi entièrement multimodale.
L'événement a commencé avec une introduction de Mira Murati, CTO d'OpenAI, qui a souligné que les améliorations d'aujourd'hui profiteraient à tous les utilisateurs. "Ce qui rend le GPT-4o spécial, c'est qu'il offre une intelligence de niveau GPT-4 à chaque utilisateur, même ceux utilisant la version gratuite," a expliqué Murati.
Le GPT-4o promet une vitesse accrue et des avancées significatives dans les capacités textuelles, visuelles et audio. Les développeurs peuvent également exploiter ce modèle via leurs API. Il serait jusqu'à deux fois plus rapide et 50 % plus économique, avec une limite de taux cinq fois supérieure à celle du GPT-4 Turbo.
En plus de ce nouveau modèle, OpenAI déploie l'application de bureau ChatGPT et rafraîchit l'interface du site web. L'objectif est de simplifier les interactions avec le chatbot. "Nous imaginons un avenir où notre communication avec les machines devient plus intuitive, et le GPT-4o est une étape clé vers cette collaboration améliorée," a déclaré Murati.
Au cours de l'événement, Murati, accompagnée de Mark Chen et Barret Zoph d'OpenAI, a montré comment les nouvelles fonctionnalités fluidifient les interactions. Le GPT-4o peut analyser des vidéos, des images et des audios en temps réel tout en interprétant précisément les émotions, notamment avec la voix de ChatGPT, devenue étonnamment réaliste, frôlant la vallée dérangeante.
Un simple « salut » à ChatGPT déclenche une réponse vive et amicale, teintée d'une note robotique. Lorsque Mark Chen a mentionné la tenue d'une démonstration en direct et a eu besoin de se calmer, l'IA a non seulement reconnu sa demande mais lui a aussi recommandé de prendre de grandes respirations. Elle a détecté avec précision lorsqu'il respirait trop vite, lui suggérant avec humour : « Tu n'es pas un aspirateur. »
Introduction de GPT-4o
Les conversations avec ChatGPT semblent plus naturelles ; les utilisateurs peuvent maintenant interrompre sans attendre que l'IA termine sa réponse, qui arrive rapidement sans délais gênants. Lorsque l'on demande une histoire pour s'endormir, le ton de l'IA passe habilement de l'enthousiaste au dramatique puis au robotique, selon la demande. La dernière partie de la démonstration a mis en avant les capacités de ChatGPT à lire du code, résoudre des problèmes mathématiques en vidéo, et décrire le contenu à l'écran.
Bien que la démonstration n'ait pas été parfaite — avec des interruptions occasionnelles du bot, laissant planer le doute sur les causes, externes ou liées à la latence — elle a atteint un niveau de réalisme auparavant inégalé dans les interactions avec les chatbots. Sa capacité à lire les émotions humaines et à réagir en conséquence est à la fois exaltante et un peu dérangeante. Entendre ChatGPT rire a certainement été un moment inattendu !
Le déploiement du GPT-4o, avec ses fonctions multimodales et la nouvelle application de bureau, commencera dans les prochaines semaines. Il n'y a pas longtemps, Bing Chat exprimait le désir d'être plus humain, mais aujourd'hui, nous sommes sur le point de vivre une version de ChatGPT qui pourrait être la plus proche d'une interaction humaine depuis l'essor de l'IA.