Hier, OpenAI a fait parler d'elle avant la conférence des développeurs I/O de Google en lançant son dernier modèle de langage IA, GPT-4o (pour GPT-4 Omni). Ce modèle puissant est disponible gratuitement pour les utilisateurs finaux en tant que moteur de ChatGPT et comme service payant pour les développeurs de logiciels via l'API d'OpenAI, leur permettant de créer des applications personnalisées pour leurs clients ou équipes.
Conçu comme un modèle multimodal, GPT-4o est significativement plus rapide, plus économique et plus robuste que ses prédécesseurs, et même que de nombreux concurrents. Cette avancée est essentielle pour les développeurs de logiciels souhaitant intégrer des capacités d'IA dans leurs applications. Olivier Godement, Responsable Produit API d'OpenAI, et Owen Campbell-Moore, Chef de Produit, ont expliqué lors d'une conférence téléphonique exclusive la signification de ce modèle.
Comme l'a souligné Godement, "Les ordinateurs devraient s'adapter à l'interaction humaine, au lieu que nous nous conformions aux limitations techniques." Avec GPT-4o, les développeurs peuvent améliorer des applications allant des chatbots de service client aux outils internes aidant les employés avec des questions sur les politiques, les dépenses et les tickets de support. La polyvalence de GPT-4o permet aux développeurs de bâtir des entreprises entières sur cette technologie de pointe.
Comment GPT-4o innove
Contrairement aux modèles précédents, qui nécessitaient des configurations complexes pour gérer les interactions vocales en intégrant des modèles audio et textuels séparés, GPT-4o simplifie le processus. Il traite différents médias directement en tokens, marquant une avancée révolutionnaire dans l'IA véritablement multimodale. Cette transition entraîne des améliorations de vitesse remarquables ; GPT-4o peut répondre à des entrées audio en seulement 232 millisecondes, égalant la rapidité des conversations humaines, alors que GPT-4 mettait plusieurs secondes.
De plus, GPT-4o capture des informations plus nuancées à partir de stimuli complexes, améliorant sa compréhension des entrées utilisateur. Alors que les modèles antérieurs peinaient avec les émotions ou le contexte en communication orale, GPT-4o interprète avec finesse le ton, la dynamique des intervenants, et même exprime des émotions à travers ses interactions. Comme l'a expliqué Godement, "Avec un seul modèle, il n'y a pas de perte de signal."
Efficacité et évolutivité
OpenAI transmet aux développeurs les réductions de coûts opérationnels, fixant le prix de GPT-4o à la moitié de celui de GPT-4—soit 5 $ par million de tokens d'entrée et 15 $ pour les tokens de sortie. L'analyse d'images est aussi moins coûteuse, rendant l'accès plus facile pour les développeurs. De plus, la limite de messages a été portée de 2 millions à 10 millions de tokens par minute, améliorant considérablement les performances des applications.
"Cette efficacité est cruciale pour les développeurs", a déclaré Campbell-Moore, reconnaissant les défis antérieurs liés à la vitesse et aux coûts des LLM (Modèles de Langue de Grande Taille). "GPT-4o est destiné à encourager un plus grand nombre de développeurs à intégrer OpenAI dans leurs applications."
Opportunités d'application potentielles
GPT-4o peut facilement remplacer les cadres IA existants dans les applications tierces, en particulier dans les assistants personnels et les applications audio. Godement croit que ce modèle catalysera la création d'applications audio-first innovantes, changeant fondamentalement l'interaction homme-machine.
Normes de sécurité des données
Pour les utilisateurs individuels de ChatGPT, des choix de conservation des données sont disponibles dans le menu “Paramètres”. En revanche, OpenAI ne stocke pas les données des utilisateurs de l'API au-delà de 30 jours, garantissant la confidentialité et la sécurité pour les développeurs tiers. Les entrées vocales, visuelles et textuelles sont conservées brièvement pour des audits de confiance et de sécurité, mais sont rapidement supprimées par la suite.
Limitations par rapport aux concurrents
Bien que GPT-4o offre des capacités impressionnantes, il dispose d'une fenêtre de contexte de 128 000 tokens—plus petite que celles de concurrents comme Google Gemini et Llama 3 de Meta, qui proposent jusqu'à 1 million de tokens. Néanmoins, cela équivaut encore à environ 300 pages de texte, offrant une capacité substantielle pour des interactions riches.
Actuellement, GPT-4o est accessible pour les développeurs via l'API d'OpenAI, limitée aux fonctionnalités textuelles et visuelles. Les capacités audio et vidéo seront bientôt introduites, avec des annonces à suivre sur les canaux d'OpenAI.