Récemment, OpenAI a annoncé une mise à jour majeure : la version d'accès anticipé (Alpha) du mode vocal GPT-4o est maintenant disponible pour certains abonnés de ChatGPT Plus, avec un déploiement plus large prévu cet automne. Cette avancée représente un progrès significatif dans l'intégration des technologies de traitement du langage naturel et d'interaction vocale.
Le GPT-4o est le dernier modèle unifié d'OpenAI, capable de traiter des entrées textuelles, visuelles et audio via le même réseau de neurones, permettant une connectivité fluide. Cette capacité améliore non seulement les performances globales du modèle, mais offre également aux utilisateurs une expérience conversationnelle plus naturelle et instantanée.
Mira Murati, Directrice technologique d'OpenAI, a déclaré que le GPT-4o symbolise la première tentative complète de l'entreprise de fusionner les modalités textuelles, visuelles et audio. Bien que le modèle soit encore en phase d'exploration de ses fonctionnalités et de ses limites, l'équipe demeure optimiste quant à son potentiel et travaille activement sur des optimisations.
Initialement prévu pour des tests à la fin juin, l'essai du mode vocal GPT-4o a été reporté afin de peaufiner le modèle. OpenAI a indiqué qu'il améliorait la capacité du modèle à détecter et rejeter du contenu inapproprié pour garantir une expérience utilisateur sûre et positive. Grâce à ces efforts, le mode vocal GPT-4o a été lancé plus tôt que prévu, signalant ainsi son accessibilité à un public plus large.
Comparé à GPT-3.5 et GPT-4, le GPT-4o se distingue dans la communication vocale. Selon les données, le délai moyen de réponse vocale pour GPT-3.5 était de 2,8 secondes, tandis que GPT-4 l'a étendu à 5,4 secondes, impactant ainsi la fluidité des conversations. Cependant, grâce à des optimisations techniques, le GPT-4o a considérablement réduit ce délai, atteignant une expérience conversationnelle presque sans couture. Il offre également des réponses rapides et un ton très réaliste, capable de percevoir et de simuler des émotions telles que la tristesse et l'enthousiasme, enrichissant ainsi la vivacité des dialogues.
Alors qu'OpenAI promeut le mode vocal GPT-4o, l'entreprise souligne son engagement en faveur de la confidentialité et de la sécurité des utilisateurs. La porte-parole de la société, Lindsay McCallum, a affirmé que ChatGPT ne reproduira jamais la voix d'un individu ou d'une personnalité publique, et que toute sortie ne correspondant pas aux voix prédéfinies est strictement contrôlée pour protéger les droits et la vie privée des utilisateurs.
Avec l'introduction du mode vocal GPT-4o, OpenAI vise à continuer à mener l'innovation dans la technologie de l'intelligence artificielle, offrant des expériences d'interaction vocale plus intelligentes, pratiques et sécurisées.