OpenAI déploie son très attendu "Mode Voix Avancée ChatGPT", une interface vocale conversationnelle semblable à celle d'un humain, élargissant l'accès au-delà de son groupe de test initial et de sa liste d'attente. Cette fonctionnalité sera accessible à tous les abonnés payants des plans ChatGPT Plus et Team, avec un accès progressif commençant aux États-Unis dans les prochains jours. Les abonnés aux plans Edu et Enterprise peuvent s'attendre à une disponibilité la semaine prochaine.
En plus de l'interface vocale, OpenAI introduit la capacité de stocker des "instructions personnalisées" et des "mémoires" pour des interactions personnalisées, s'inspirant des fonctionnalités précédemment lancées pour l'option texte de ChatGPT. Les utilisateurs profiteront de cinq nouveaux styles de voix : Arbor, Maple, Sol, Spruce et Vale, venant compléter les voix existantes : Breeze, Juniper, Cove et Ember.
Cette amélioration permet aux utilisateurs de ChatGPT d'interagir avec le chatbot par la voix plutôt qu'en tapant. Une notification pop-up confirmera l'entrée des utilisateurs en mode Assistant Vocal Avancé dans l'application. OpenAI a consacré du temps à affiner les accents pour les langues étrangères populaires et à améliorer la fluidité conversationnelle depuis la version alpha. Les utilisateurs remarqueraient également un mode Voix Avancée redessiné, présentant une sphère bleue animée.
Ces mises à jour sont exclusives au modèle GPT-4o, à l'exception du nouveau modèle de prévisualisation o1. Les capacités d'instructions personnalisées et de mémoire personnaliseront davantage les interactions des utilisateurs lors des discussions vocales.
Alors que les assistants vocaux AI comme Siri d'Apple et Alexa d'Amazon gagnent en popularité, les développeurs s'efforcent de créer des expériences conversationnelles plus humaines. ChatGPT a intégré la fonctionnalité vocale avec sa fonction Lire à Voix Haute ; cependant, le Mode Voix Avancée vise à offrir une interaction plus engageante et authentique.
Parmi les concurrents, Hume AI a récemment lancé son Interface Vocale Empathique, capable de détecter les émotions par les motifs vocaux, et Kyutai a dévoilé son assistant vocal AI en open-source, Moshi. Google a ajouté des voix à son chatbot Gemini, tandis que Meta développe des voix imitant des acteurs populaires pour sa plateforme AI. OpenAI affirme rendre la technologie vocale AI plus accessible que ses concurrents.
Malgré l'excitation, l'intégration des voix AI n'a pas été sans controverse. Des préoccupations ont émergé concernant la similarité de l'une des voix de ChatGPT, Sky, avec celle de l'actrice Scarlett Johansson, notamment après que le PDG Sam Altman a évoqué "elle", rappelant le rôle de Johansson en tant qu'assistante AI dans un film. OpenAI a souligné qu'il n'a pas l'intention de reproduire les voix de personnalités connues et affirme que les utilisateurs n'auront accès qu'à neuf voix distinctes d'OpenAI.
Le lancement a initialement été retardé d'un projet de lancement fin juin à "fin juillet ou début août", en partie en raison d'un engagement en matière de tests de sécurité. OpenAI a mené des évaluations approfondies avec des experts externes maîtrisant 45 langues à travers 29 régions. La décision d'élargir l'accès maintenant suggère qu'OpenAI se sent confiant dans les mesures de sécurité mises en place, en accord avec son approche prudente de collaboration avec les gouvernements américain et britannique et de fourniture de prévisualisations de nouveaux modèles avant leur sortie.