Quelques jours après le lancement de son avatar ChatGPT amélioré, capable de fournir des réponses humaines en temps réel, OpenAI a décidé de mettre en pause la très médiatisée fonction vocale "Sky". Cette décision fait suite à des inquiétudes selon lesquelles la voix Sky ressemblait trop à la performance de Scarlett Johansson dans le film "Her". OpenAI a réfuté les allégations d'imitation directe, précisant que la voix était celle d'une "actrice professionnelle utilisant sa propre voix naturelle".
Il est actuellement incertain quand, ou si, la voix Sky sera rétablie. Cependant, les utilisateurs de ChatGPT peuvent toujours choisir parmi quatre autres options vocales : Breeze, Cove, Ember et Juniper. Après cette annonce, le journaliste Yashar Ali a partagé une déclaration du représentant de Johansson, confirmant que la star avait été approchée par le PDG d'OpenAI, Sam Altman, pour prêter sa voix avant le lancement, mais avait décliné. Johansson a exprimé sa surprise et sa frustration en entendant le prototype, notant que la voix était alarmante similaire à la sienne, entraînant la confusion parmi ses amis et les médias.
OpenAI a lancé des fonctionnalités vocales pour ChatGPT en septembre 2023, mais le modèle initial présentait une latence notable en raison de sa dépendance à trois systèmes distincts : un pour la transcription audio en texte, GPT-3.5/GPT-4 pour la génération de réponses, et un autre pour convertir le texte en audio. Par conséquent, l'IA avait des difficultés à réagir au ton, à plusieurs locuteurs et aux bruits de fond.
Pour remédier à ces limitations, OpenAI a récemment annoncé GPT-4o, une IA multimodale unifiée en temps réel intégrant texte, voix et vision, offrant des réponses en environ 320 millisecondes. Cette mise à jour positionne ChatGPT comme un concurrent potentiel des assistants vocaux établis comme Siri et Alexa.
Suite au lancement, les utilisateurs ont rapidement remarqué que la voix Sky ressemblait fortement au personnage IA "Samantha" de "Her", suscitant des spéculations sur l'utilisation de l'IA par OpenAI pour reproduire les caractéristiques vocales de Johansson. En réponse à ces préoccupations, OpenAI a suspendu la voix Sky tout en soulignant qu'il ne s'agissait pas d'une imitation de Johansson, mais de la voix d'une actrice professionnelle choisie après un processus de recrutement de cinq mois. "Nous croyons que les voix d'IA ne devraient pas imiter délibérément la voix distinctive d'une célébrité," a déclaré OpenAI dans un article de blog. Ils ont souligné que les voix—sélectionnées parmi 400 candidats—avaient été choisies en fonction de critères reflétant la diversité, l'intemporalité et la chaleur.
Alors que la voix Sky est mise sur pause, les quatre autres options vocales restent disponibles. Avec le prochain déploiement du nouveau mode vocal de GPT-4o, les utilisateurs peuvent explorer ces alternatives en interagissant avec l'IA. Quant à l'avenir de la voix Sky, il reste incertain quels ajustements OpenAI envisage d'apporter pour répondre aux préoccupations concernant les similitudes avec le personnage de Johansson. L'entreprise reste déterminée à collaborer avec les acteurs vocaux impliqués et prévoit d'élargir son offre avec d'autres options vocales pour répondre aux préférences et intérêts variés des utilisateurs.