OpenAI élargit son champ d'action au-delà de la génération de texte, d'images et de vidéos avec une avancée majeure dans la technologie audio : le clonage vocal. Aujourd'hui, l'entreprise a annoncé son dernier modèle d'IA, le « Voice Engine ». En développement depuis 2022, ce modèle alimente l'API de synthèse vocale d'OpenAI, ainsi que les nouvelles fonctionnalités Voice et Read Aloud de ChatGPT lancées plus tôt ce mois-ci.
Comment Fonctionne le Clonage Vocal
Le Voice Engine crée des clones vocaux réalistes en demandant à un locuteur humain d'enregistrer un clip audio de 15 secondes via un microphone de téléphone ou d'ordinateur. L'IA génère ensuite une parole naturelle qui ressemble étroitement à celle de l'original, permettant aux utilisateurs de convertir tout texte tapé en paroles.
Conséquences Majeures pour le Marché de l'Audio Énoncé
Cette technologie a un potentiel énorme pour les personnes qui s'expriment souvent en public, y compris les podcasteurs, les artistes de voix-off, les narrateurs de livres audio, les gamers, et les représentants du service client. Elle pose également un défi aux entreprises concurrentes sur ce marché, telles qu'ElevenLabs, Captions, Meta, WellSaid Labs et MyShell.
OpenAI souligne également la capacité du Voice Engine à aider les personnes non verbales en fournissant des voix uniques et non robotiques, ce qui peut être essentiel dans des contextes thérapeutiques et éducatifs pour ceux ayant des troubles de la parole ou des difficultés d'apprentissage.
Cas d'Utilisation Initiaux
Dans son annonce, OpenAI a précisé que le Voice Engine est actuellement accessible à un petit groupe de partenaires de confiance, dont :
- Age of Learning : Utilise le Voice Engine et GPT-4 pour créer du contenu vocal personnalisé pour divers publics étudiants.
- HeyGen : Applique cette technologie à la traduction vidéo, créant des avatars personnalisés avec des voix multilingues réalistes pour améliorer la communication mondiale.
- Dimagi : Intègre le Voice Engine pour fournir un retour interactif et multilingue aux agents de santé communautaire, améliorant ainsi la prestation de services dans les zones reculées.
- Livox : Améliore son application de communication alternative avec le Voice Engine, offrant des voix uniques aux personnes ayant des handicaps de parole et d’audition.
- Norman Prince Neurosciences Institute at Lifespan : Utilise la technologie pour aider les patients ayant des troubles de la parole, notamment en rétablissant la voix d'un patient atteint d'une tumeur cérébrale à partir d'un échantillon audio antérieur.
OpenAI a fourni des exemples audio démontrant les capacités de la technologie, incluant une comparaison entre la voix originale d'un patient et la version clonée à l'aide du Voice Engine.
Accès Limité et Déploiement Prudent
Pour l'instant, le Voice Engine n'est pas disponible pour le grand public. OpenAI partage des informations et des résultats d'un aperçu à petite échelle exclusivement avec ses partenaires de confiance. La société a déclaré : « Nous adoptons une approche prudente et informée pour un déploiement plus large en raison des risques potentiels d'utilisation abusive des voix synthétiques. » OpenAI vise à initier des discussions sur l'utilisation responsable des voix synthétiques et à évaluer comment la société peut s'adapter à ces avancées.
L'approche d'OpenAI concernant le déploiement du Voice Engine est cohérente avec les récents appels à la réglementation sur l'imitation vocale d'IA. Pour garantir une utilisation éthique, les partenaires testant la technologie doivent respecter des politiques strictes interdisant l'imitation non autorisée et exigeant le consentement éclairé des donneurs de voix. De plus, OpenAI met en oeuvre des mesures de sécurité, y compris le filigranage et une surveillance proactive, pour promouvoir une utilisation responsable de la technologie.