Sprache ist fundamental für die menschliche Interaktion – und ebenso die Emotion, die damit verbunden ist. Emotionen wie Freude, Trauer, Wut und Frustration verbessern unsere Botschaften und vertiefen unsere Verbindungen. Trotz der Fortschritte der generativen KI hat diese oft Schwierigkeiten, die Nuancen menschlicher Emotionen zu erfassen. Typecast, ein innovatives Startup, möchte dies mit seiner neuen Technologie zur Übertragung von Emotionen zwischen Sprechern ändern. Diese Funktion ermöglicht es Nutzern, Emotionen, die aus der Stimme einer anderen Person erfasst werden, in ihre eigenen Aufnahmen zu integrieren, während sie ihren einzigartigen Stimmstil bewahren. Diese Entwicklung optimiert die Content-Erstellung und ist über Typecasts My Voice Maker verfügbar.
„KI-Sprecher haben es noch nicht vollständig geschafft, die emotionale Bandbreite der Menschen einzufangen, was ihr größtes Manko ist“, erklärt Taesu Kim, CEO und Mitgründer von Neosapience und Typecast. Mit Typecasts Cross-Speaker Emotion Transfer kann "jeder KI-Sprecher mit echter emotionaler Tiefe aus nur einer kleinen Sprachprobe nutzen."
Emotionsdekodierung
Menschliche Emotionen lassen sich typischerweise in sieben Kategorien einteilen: Freude, Trauer, Wut, Angst, Überraschung und Ekel, basierend auf universellen Gesichtsausdrücken. Diese Kategorien reichen jedoch nicht aus, um das gesamte Spektrum der Emotionen in generierter Sprache zu vermitteln. Sprechen ist nicht einfach eine direkte Übertragung von Text zu Sprache. „Menschen können denselben Satz auf unzählige Arten ausdrücken“, erklärt Kim in einem exklusiven Interview. Verschiedene Emotionen können im gleichen Satz – und sogar im gleichen Wort – vermittelt werden.
Zum Beispiel kann die Frage „Wie kannst du das nur mir antun?“ je nach emotionalem Impuls ganz unterschiedlich formuliert werden: von einem enttäuschten bis zu einem wütenden Ton. Selbst komplexe Emotionen wie „So traurig, weil ihr Vater gestorben ist, aber dennoch ein Lächeln auf dem Gesicht“ lassen sich nicht eindeutig kategorisieren. Forscher wie Kim betonen, dass die Fähigkeit, verschiedene Emotionen zu vermitteln, reichhaltigere Gespräche schafft.
Grenzen des emotionalen Text-to-Speech
Die Text-to-Speech-Technologie hat sich rasant entwickelt, insbesondere durch Modelle wie ChatGPT, LaMDA, LLama und Bard. Dennoch bleibt es eine Herausforderung, emotionales Text-to-Speech zu realisieren, da es oft umfangreiche gelabelte Daten benötigt, die schwer zu beschaffen sind. Das Erfassen der Nuancen verschiedener Emotionen war traditionell ein zeitaufwändiger Prozess. „Es ist extrem schwierig, lange Sätze aufzuzeichnen und dabei die Emotionen konstant zu bewahren“, merkt Kim an.
In der herkömmlichen emotionalen Sprachsynthese muss jedes Trainingsdatum mit einem Emotionslabel versehen sein, was oft zusätzliche Codierung oder Referenzaudio erfordert. Dies wird problematisch, wenn nicht für jede Emotion oder jeden Sprecher Daten verfügbar sind, was zu Fehlklassifikationen und Schwierigkeiten beim Einfangen der Emotionsintensität führt. Die Übertragung von Emotionen zwischen Sprechern stellt zusätzliche Herausforderungen dar, insbesondere wenn unbekannte Emotionen anderen Sprechern zugeordnet werden. Die aktuelle Technologie liefert oft unnatürliche Ergebnisse, wenn neutrale Sprecher versuchen, emotionale Sprache zu produzieren.
Innovation mit Deep Neural Networks und unüberwachtem Lernen
Um diese Herausforderungen zu meistern, integrierten die Forscher Emotionslabels in ein generatives tiefes neuronales Netzwerk – ein bahnbrechender Ansatz. Allerdings war das nicht ausreichend, um komplexe Emotionen und Sprechstile auszudrücken. Anschließend wurde ein unüberwachter Lernalgorithmus entwickelt, um Sprechstile und Emotionen aus einer großen Datenbank zu identifizieren. Das Training erfolgte ohne Emotionslabels, sodass das Modell wertvolle Darstellungen aus Sprachdaten ableiten konnte. Obwohl diese Darstellungen möglicherweise nicht menschlich interpretierbar sind, können sie Text-to-Speech-Algorithmen bei der Ausdrucksweise von Emotionen unterstützen.
Weitere Fortschritte umfassten das Training eines Wahrnehmungsneuronalen Netzwerks, um natürliche Sprachbeschreibungen von Emotionen in nutzbare Darstellungen zu konvertieren. „Mit dieser Technologie müssen Nutzer keine Hunderte unterschiedlicher Sprechstile oder Emotionen aufzeichnen. Das System lernt aus einer breiten Datenbank emotionaler Stimmen“, erklärt Kim.
Einfache Anpassung der Stimmmerkmale
Die Forscher erzielten erfolgreich „übertragbare und kontrollierbare emotionale Sprachsynthese“, indem sie latente Darstellungen nutzten. Techniken wie domänenadversariales Training und Zyklus-Konsistenzverlust ermöglichen es, die Merkmale des Sprechers vom Sprechstil zu entwirren. Durch die Analyse einer breiten Palette aufgezeichneter menschlicher Stimmen lernt das System emotionale Muster, Töne und Intonationen. Die Methode überträgt effektiv Emotionen auf einen neutralen Sprecher unter Verwendung nur weniger gelabelter Proben und ermöglicht eine Steuerung der Emotionsintensität durch intuitive Skalierungswerte.
Diese Innovation ermöglicht es Nutzern, einen kurzen Sprachsnippet aufzunehmen und dabei verschiedene Emotionen auszudrücken, ohne ihre einzigartige Stimmidentität zu verändern. Indem sie einfach fünf Minuten Sprache aufzeichnen, können sie Emotionen wie Freude, Trauer und Wut ausdrücken, selbst wenn sie normal sprechen. Typecasts Technologie wurde bereits von namhaften Unternehmen wie Samsung Securities und LG Electronics implementiert, während das Startup seit seiner Gründung im Jahr 2017 26,8 Millionen Dollar sichern konnte. Derzeit erforscht Typecast Anwendungen seiner Sprachsynthesetechnologien in der Mimik.
Die Bedeutung der Kontrollierbarkeit in generativer KI
In der sich schnell entwickelnden Medienlandschaft, wie Kim anmerkt, hat sich die Beliebtheit textbasierter Blogs hin zu Kurzvideos verschoben, was Einzelpersonen und Unternehmen zwingt, mehr Audio- und Videoinhalte als je zuvor zu produzieren. „Eine hochwertige, ausdrucksstarke Stimme ist entscheidend für die Vermittlung von Unternehmensbotschaften“, betont Kim.
Effizienz in der Produktion ist entscheidend, da die manuelle Arbeit von menschlichen Sprechern oft zu langsam ist. „Kontrollierbarkeit in der generativen KI ist entscheidend für die Content-Erstellung. Diese Technologien ermöglichen es Einzelpersonen und Unternehmen, ihr kreatives Potenzial auszuschöpfen und gleichzeitig die Produktivität zu steigern.“