Le mode vocal avancé de ChatGPT a été lancé mardi pour un groupe sélectionné d'abonnés OpenAI dans le cadre de sa très attendue version alpha. Annoncé initialement en mai, cette fonctionnalité révolutionne l'interaction en dépassant le dialogue textuel traditionnel pour engager les utilisateurs par le biais d'un langage parlé naturel, d'une qualité réaliste. Elle prend en charge une variété d'accents et de langues régionales. Selon OpenAI, Advanced Voice vise à offrir "des conversations plus naturelles en temps réel, permettant des interruptions à tout moment et détectant et répondant à vos émotions."
Cependant, le mode vocal présente certaines limitations. Le système fonctionne avec quatre voix prédéfinies et ne peut pas imiter les voix d'utilisateurs individuels ou de personnalités publiques. Les sons qui s'éloignent de ces préréglages sont automatiquement bloqués. De plus, Advanced Voice n'est pas conçu pour créer des audio protégés par des droits d'auteur ou produire de la musique. Il est intéressant de noter que les utilisateurs ont déjà expérimenté cette fonctionnalité en demandant à l'IA de beatboxer.
Le testeur alpha Ethan Sutin a partagé sur X (anciennement Twitter) un fil mettant en avant diverses réponses de l'Advanced Voice, y compris un court "rap d'anniversaire" et une démonstration de beatboxing. Les utilisateurs peuvent entendre la respiration numérique de l'IA entre les rythmes. Bien qu'elle ne puisse pas créer de chansons complètes, l'IA ajoute de manière impressionnante des effets sonores aux histoires de coucher, enrichissant l'expérience narrative. Par exemple, elle génère des bruits d'écrasement et de claquement lors d'un récit sur un cyborg rebelle, lorsqu'on lui demande de créer une atmosphère immersive.
Advanced Voice peut également générer spontanément des personnages réalistes, renforçant sa qualité lifelike. Les utilisateurs peuvent demander à l'IA de s'exprimer dans divers tons et langues, ajoutant de la profondeur à leurs interactions.
Les capacités vocales de l'IA vont au-delà des simples langues humaines. Par exemple, lorsqu'on lui demande, Advanced Voice peut imiter avec précision les sons de chat. Les utilisateurs peuvent interagir avec l’IA en posant des questions sur leurs compagnons félin, recevant des conseils et des astuces personnalisés en temps réel.
De plus, Advanced Voice peut utiliser la caméra de votre appareil pour soutenir les efforts de traduction. Dans un cas, un utilisateur a pointé son téléphone vers un jeu Pokémon GameBoy Advance en japonais, permettant à l'IA de lire le dialogue à l'écran pendant qu'il jouait. Bien que les fonctionnalités de partage vidéo et d'écran ne fassent pas partie de cette version alpha, OpenAI prévoit de les introduire prochainement. L'entreprise a l'intention d'élargir la version alpha à plus d'abonnés Plus dans les semaines à venir, avec un déploiement complet prévu pour cet automne.