La langue est essentielle à l'interaction humaine, tout comme les émotions qui l'accompagnent. Exprimer des sentiments tels que la joie, la tristesse, la colère et la frustration enrichit nos messages et renforce nos liens. Bien que l’IA générative ait progressé dans divers domaines, elle peine souvent à saisir les subtilités des émotions humaines.
Typecast, une startup innovante, vise à changer cela grâce à sa nouvelle technologie de transfert d’émotion entre locuteurs. Cette fonctionnalité permet aux utilisateurs d’intégrer des émotions capturées à partir de la voix d’un autre dans leurs propres enregistrements, tout en préservant leur style vocal unique. Ce développement facilite la création de contenu et est accessible via l’outil My Voice Maker de Typecast.
« Les acteurs IA n'ont pas encore réussi à capturer pleinement la gamme émotionnelle des humains, ce qui constitue leur principale limite », déclare Taesu Kim, PDG et co-fondateur de Neosapience et Typecast. Avec le transfert d’émotion entre locuteurs de Typecast, « n'importe qui peut utiliser des acteurs IA dotés d'une véritable profondeur émotionnelle à partir d'un simple échantillon vocal ».
Déchiffrer l'Émotion
Les émotions humaines se classifient généralement en sept catégories : joie, tristesse, colère, peur, surprise, et dégoût, basées sur des expressions faciales universelles. Toutefois, ces catégories ne parviennent pas à retranscrire toute la complexité des émotions dans la parole générée. La parole ne se limite pas à une simple traduction texte-parole. « Les humains peuvent exprimer la même phrase de multiples façons », explique Kim dans une interview exclusive. Différentes émotions peuvent être véhiculées dans la même phrase, voire dans le même mot.
Par exemple, demander « Comment peux-tu me faire cela ? » peut être exprimé de manières radicalement différentes selon l'émotion : de la déception à la colère. Même des émotions complexes, comme « Si triste parce que son père est décédé mais montrant un sourire », échappent à une simple catégorisation.
Des chercheurs, dont Kim, soulignent que la capacité à transmettre des émotions diverses crée des conversations plus riches.
Limitations de la Synthèse Vocale Émotionnelle
La technologie de synthèse vocale a rapidement évolué, en particulier avec des modèles tels que ChatGPT, LaMDA, LLama, Bard, et d'autres. Néanmoins, réaliser une synthèse vocal émotionnelle demeure un défi. Cela nécessite souvent des données étiquetées marquées par émotion, ce qui est difficile à obtenir. Enregistrer les nuances des émotions a traditionnellement été un processus long.
« Il est incroyablement difficile d'enregistrer des phrases longues tout en préservant une émotion cohérente », note Kim. Dans la synthèse vocale émotionnelle conventionnelle, chaque donnée d'entraînement doit être étiquetée par émotion, ce qui nécessite souvent un encodage supplémentaire ou des enregistrements de référence. Cela pose problème lorsque les données ne sont pas disponibles pour chaque émotion ou locuteur, entraînant un risque de mauvaise étiquetage et des difficultés à capturer l'intensité émotionnelle.
Le transfert d'émotion entre locuteurs présente également des défis, notamment lors de l'attribution d'émotions non vues à différents locuteurs. La technologie actuelle aboutit souvent à des résultats peu naturels lorsque des locuteurs neutres essaient de produire une parole émotionnelle.
Innover avec des Réseaux Neuraux Profonds et l'Apprentissage Non Supervisé
Pour relever ces défis, les chercheurs ont intégré des étiquettes d'émotion dans un réseau de neurones génératif – une approche révolutionnaire. Cependant, cela ne suffisait pas à exprimer des émotions complexes et des styles de parole. Un algorithme d'apprentissage non supervisé a ensuite été développé pour identifier les styles de parole et les émotions à partir d'une vaste base de données. L'entraînement s'est fait sans étiquettes d'émotion, permettant au modèle de dériver des représentations précieuses à partir des données vocales. Bien que ces représentations ne soient pas interprétables par des humains, elles peuvent enrichir les algorithmes de synthèse vocale pour exprimer des émotions.
Parmi les avancées, un réseau de neurones de perception a été formé pour convertir les descriptions d'émotions en langage naturel en représentations exploitables. « Avec cette technologie, les utilisateurs n’ont plus besoin d’enregistrer des centaines de styles de parole ou d’émotions ; le système apprend à partir d'une large base de données de voix émotionnelles », déclare Kim.
Adaptation Facile des Caractéristiques Vocales
Les chercheurs ont réussi à réaliser une « synthèse vocale émotionnelle transférable et contrôlable » en exploitant des représentations latentes. Des techniques telles que l'entraînement antagoniste de domaine et la perte de cohérence cyclique permettent de dissocier les caractéristiques du locuteur du style de parole. En analysant un large éventail de voix humaines enregistrées, le système apprend des motifs, tonalités et inflexions émotionnels. La méthode transfère efficacement les émotions à un locuteur neutre en utilisant seulement quelques échantillons étiquetés, tout en permettant de contrôler l'intensité émotionnelle via des valeurs scalaires intuitives.
Cette innovation permet aux utilisateurs d’enregistrer un court extrait vocal, en appliquant diverses émotions sans altérer leur identité vocale unique. En enregistrant seulement cinq minutes de discours, ils peuvent exprimer des émotions telles que la joie, la tristesse, et la colère, même en parlant normalement.
La technologie de Typecast a déjà été adoptée par des entreprises notables telles que Samsung Securities et LG Electronics, la startup ayant sécurisé 26,8 millions de dollars depuis sa création en 2017. Actuellement, Typecast explore les applications de ses technologies de synthèse vocale dans les expressions faciales.
L'Importance de la Contrôlabilité dans l'IA Générative
Dans un paysage médiatique en constante évolution, comme l'indique Kim, la popularité des blogs basés sur le texte a cédé la place à des vidéos courtes, poussant individus et entreprises à produire plus de contenu audio et vidéo que jamais. « Une voix expressive de haute qualité est essentielle pour transmettre des messages d'entreprise », affirme Kim. L'efficacité en production est cruciale, car le travail manuel des acteurs humains est souvent trop lent.
« La contrôlabilité dans l'IA générative est essentielle pour la création de contenu. Ces technologies permettent aux individus et aux entreprises de libérer leur potentiel créatif tout en améliorant leur productivité. »