La technologie Typecast révolutionnaire permet à l'IA générative de transmettre des émotions humaines.

Home Actualités IA La technologie Typecast révolutionnaire permet à l'IA générative de transmettre des émotions humaines.

Updated on novembre 1 2024

La langue est essentielle à l'interaction humaine, tout comme les émotions qui l'accompagnent. Exprimer des sentiments tels que la joie, la tristesse, la colère et la frustration enrichit nos messages et renforce nos liens. Bien que l’IA générative ait progressé dans divers domaines, elle peine souvent à saisir les subtilités des émotions humaines.

Typecast, une startup innovante, vise à changer cela grâce à sa nouvelle technologie de transfert d’émotion entre locuteurs. Cette fonctionnalité permet aux utilisateurs d’intégrer des émotions capturées à partir de la voix d’un autre dans leurs propres enregistrements, tout en préservant leur style vocal unique. Ce développement facilite la création de contenu et est accessible via l’outil My Voice Maker de Typecast.

« Les acteurs IA n'ont pas encore réussi à capturer pleinement la gamme émotionnelle des humains, ce qui constitue leur principale limite », déclare Taesu Kim, PDG et co-fondateur de Neosapience et Typecast. Avec le transfert d’émotion entre locuteurs de Typecast, « n'importe qui peut utiliser des acteurs IA dotés d'une véritable profondeur émotionnelle à partir d'un simple échantillon vocal ».

Déchiffrer l'Émotion

Les émotions humaines se classifient généralement en sept catégories : joie, tristesse, colère, peur, surprise, et dégoût, basées sur des expressions faciales universelles. Toutefois, ces catégories ne parviennent pas à retranscrire toute la complexité des émotions dans la parole générée. La parole ne se limite pas à une simple traduction texte-parole. « Les humains peuvent exprimer la même phrase de multiples façons », explique Kim dans une interview exclusive. Différentes émotions peuvent être véhiculées dans la même phrase, voire dans le même mot.

Par exemple, demander « Comment peux-tu me faire cela ? » peut être exprimé de manières radicalement différentes selon l'émotion : de la déception à la colère. Même des émotions complexes, comme « Si triste parce que son père est décédé mais montrant un sourire », échappent à une simple catégorisation.

Des chercheurs, dont Kim, soulignent que la capacité à transmettre des émotions diverses crée des conversations plus riches.

Limitations de la Synthèse Vocale Émotionnelle

La technologie de synthèse vocale a rapidement évolué, en particulier avec des modèles tels que ChatGPT, LaMDA, LLama, Bard, et d'autres. Néanmoins, réaliser une synthèse vocal émotionnelle demeure un défi. Cela nécessite souvent des données étiquetées marquées par émotion, ce qui est difficile à obtenir. Enregistrer les nuances des émotions a traditionnellement été un processus long.

« Il est incroyablement difficile d'enregistrer des phrases longues tout en préservant une émotion cohérente », note Kim. Dans la synthèse vocale émotionnelle conventionnelle, chaque donnée d'entraînement doit être étiquetée par émotion, ce qui nécessite souvent un encodage supplémentaire ou des enregistrements de référence. Cela pose problème lorsque les données ne sont pas disponibles pour chaque émotion ou locuteur, entraînant un risque de mauvaise étiquetage et des difficultés à capturer l'intensité émotionnelle.

Le transfert d'émotion entre locuteurs présente également des défis, notamment lors de l'attribution d'émotions non vues à différents locuteurs. La technologie actuelle aboutit souvent à des résultats peu naturels lorsque des locuteurs neutres essaient de produire une parole émotionnelle.

Innover avec des Réseaux Neuraux Profonds et l'Apprentissage Non Supervisé

Pour relever ces défis, les chercheurs ont intégré des étiquettes d'émotion dans un réseau de neurones génératif – une approche révolutionnaire. Cependant, cela ne suffisait pas à exprimer des émotions complexes et des styles de parole. Un algorithme d'apprentissage non supervisé a ensuite été développé pour identifier les styles de parole et les émotions à partir d'une vaste base de données. L'entraînement s'est fait sans étiquettes d'émotion, permettant au modèle de dériver des représentations précieuses à partir des données vocales. Bien que ces représentations ne soient pas interprétables par des humains, elles peuvent enrichir les algorithmes de synthèse vocale pour exprimer des émotions.

Parmi les avancées, un réseau de neurones de perception a été formé pour convertir les descriptions d'émotions en langage naturel en représentations exploitables. « Avec cette technologie, les utilisateurs n’ont plus besoin d’enregistrer des centaines de styles de parole ou d’émotions ; le système apprend à partir d'une large base de données de voix émotionnelles », déclare Kim.

Adaptation Facile des Caractéristiques Vocales

Les chercheurs ont réussi à réaliser une « synthèse vocale émotionnelle transférable et contrôlable » en exploitant des représentations latentes. Des techniques telles que l'entraînement antagoniste de domaine et la perte de cohérence cyclique permettent de dissocier les caractéristiques du locuteur du style de parole. En analysant un large éventail de voix humaines enregistrées, le système apprend des motifs, tonalités et inflexions émotionnels. La méthode transfère efficacement les émotions à un locuteur neutre en utilisant seulement quelques échantillons étiquetés, tout en permettant de contrôler l'intensité émotionnelle via des valeurs scalaires intuitives.

Cette innovation permet aux utilisateurs d’enregistrer un court extrait vocal, en appliquant diverses émotions sans altérer leur identité vocale unique. En enregistrant seulement cinq minutes de discours, ils peuvent exprimer des émotions telles que la joie, la tristesse, et la colère, même en parlant normalement.

La technologie de Typecast a déjà été adoptée par des entreprises notables telles que Samsung Securities et LG Electronics, la startup ayant sécurisé 26,8 millions de dollars depuis sa création en 2017. Actuellement, Typecast explore les applications de ses technologies de synthèse vocale dans les expressions faciales.

L'Importance de la Contrôlabilité dans l'IA Générative

Dans un paysage médiatique en constante évolution, comme l'indique Kim, la popularité des blogs basés sur le texte a cédé la place à des vidéos courtes, poussant individus et entreprises à produire plus de contenu audio et vidéo que jamais. « Une voix expressive de haute qualité est essentielle pour transmettre des messages d'entreprise », affirme Kim. L'efficacité en production est cruciale, car le travail manuel des acteurs humains est souvent trop lent.

« La contrôlabilité dans l'IA générative est essentielle pour la création de contenu. Ces technologies permettent aux individus et aux entreprises de libérer leur potentiel créatif tout en améliorant leur productivité. »

Dell et Hugging Face s'associent pour simplifier le déploiement des grands modèles de langage.

Comment l'IA générative façonne l'avenir de la gestion des identités et des accès

Most people like

Marpipe

38.4K

Présentation d'une plateforme automatisée conçue pour la création et le test des Annonces Produits Dynamiques. Simplifiez vos efforts publicitaires et améliorez l'engagement grâce à des solutions sur mesure qui optimisent votre stratégie marketing de manière efficace.

Annonces produits dynamiques AI Advertising Assistant

Robopost AI

70.4K

Découvrez notre outil innovant alimenté par l'IA, conçu pour vous aider à créer des contenus captivants pour les réseaux sociaux sans effort. Libérez le potentiel de l'intelligence artificielle pour améliorer votre engagement en ligne et renforcer la présence de votre marque dans le paysage numérique. Avec notre solution, générez des publications accrocheuses qui résonnent avec votre audience, stimulant ainsi l'interaction et la croissance.

médias sociaux AI Content Generator

DubVid

5.3K

Libérez le potentiel d'interaction avec des personnes du monde entier en surmontant les barrières linguistiques. Adoptez le pouvoir d'une communication efficace et élargissez votre portée à des publics divers, favorisant des connexions significatives à l'échelle mondiale.

traduction vidéo Translate

Musick AI

21K

Découvrez la puissance d'un générateur de musique AI qui crée des compositions musicales de haute qualité sans effort. Que vous soyez un musicien chevronné à la recherche d'inspiration ou un débutant souhaitant explorer votre créativité, cette technologie de pointe vous permet de composer une musique unique et de qualité professionnelle, adaptée à votre vision. Libérez votre potentiel artistique avec notre générateur de musique AI innovant dès aujourd'hui !

générateur de musique AI AI Music Generator

Find AI tools in YBX