Revolutionäre Typecast-Technologie ermöglicht es generativer KI, menschliche Emotionen zu vermitteln.

Home KI-Nachrichten Revolutionäre Typecast-Technologie ermöglicht es generativer KI, menschliche Emotionen zu vermitteln.

Updated on November 1 2024

Sprache ist fundamental für die menschliche Interaktion – und ebenso die Emotion, die damit verbunden ist. Emotionen wie Freude, Trauer, Wut und Frustration verbessern unsere Botschaften und vertiefen unsere Verbindungen. Trotz der Fortschritte der generativen KI hat diese oft Schwierigkeiten, die Nuancen menschlicher Emotionen zu erfassen. Typecast, ein innovatives Startup, möchte dies mit seiner neuen Technologie zur Übertragung von Emotionen zwischen Sprechern ändern. Diese Funktion ermöglicht es Nutzern, Emotionen, die aus der Stimme einer anderen Person erfasst werden, in ihre eigenen Aufnahmen zu integrieren, während sie ihren einzigartigen Stimmstil bewahren. Diese Entwicklung optimiert die Content-Erstellung und ist über Typecasts My Voice Maker verfügbar.

„KI-Sprecher haben es noch nicht vollständig geschafft, die emotionale Bandbreite der Menschen einzufangen, was ihr größtes Manko ist“, erklärt Taesu Kim, CEO und Mitgründer von Neosapience und Typecast. Mit Typecasts Cross-Speaker Emotion Transfer kann "jeder KI-Sprecher mit echter emotionaler Tiefe aus nur einer kleinen Sprachprobe nutzen."

Emotionsdekodierung

Menschliche Emotionen lassen sich typischerweise in sieben Kategorien einteilen: Freude, Trauer, Wut, Angst, Überraschung und Ekel, basierend auf universellen Gesichtsausdrücken. Diese Kategorien reichen jedoch nicht aus, um das gesamte Spektrum der Emotionen in generierter Sprache zu vermitteln. Sprechen ist nicht einfach eine direkte Übertragung von Text zu Sprache. „Menschen können denselben Satz auf unzählige Arten ausdrücken“, erklärt Kim in einem exklusiven Interview. Verschiedene Emotionen können im gleichen Satz – und sogar im gleichen Wort – vermittelt werden.

Zum Beispiel kann die Frage „Wie kannst du das nur mir antun?“ je nach emotionalem Impuls ganz unterschiedlich formuliert werden: von einem enttäuschten bis zu einem wütenden Ton. Selbst komplexe Emotionen wie „So traurig, weil ihr Vater gestorben ist, aber dennoch ein Lächeln auf dem Gesicht“ lassen sich nicht eindeutig kategorisieren. Forscher wie Kim betonen, dass die Fähigkeit, verschiedene Emotionen zu vermitteln, reichhaltigere Gespräche schafft.

Grenzen des emotionalen Text-to-Speech

Die Text-to-Speech-Technologie hat sich rasant entwickelt, insbesondere durch Modelle wie ChatGPT, LaMDA, LLama und Bard. Dennoch bleibt es eine Herausforderung, emotionales Text-to-Speech zu realisieren, da es oft umfangreiche gelabelte Daten benötigt, die schwer zu beschaffen sind. Das Erfassen der Nuancen verschiedener Emotionen war traditionell ein zeitaufwändiger Prozess. „Es ist extrem schwierig, lange Sätze aufzuzeichnen und dabei die Emotionen konstant zu bewahren“, merkt Kim an.

In der herkömmlichen emotionalen Sprachsynthese muss jedes Trainingsdatum mit einem Emotionslabel versehen sein, was oft zusätzliche Codierung oder Referenzaudio erfordert. Dies wird problematisch, wenn nicht für jede Emotion oder jeden Sprecher Daten verfügbar sind, was zu Fehlklassifikationen und Schwierigkeiten beim Einfangen der Emotionsintensität führt. Die Übertragung von Emotionen zwischen Sprechern stellt zusätzliche Herausforderungen dar, insbesondere wenn unbekannte Emotionen anderen Sprechern zugeordnet werden. Die aktuelle Technologie liefert oft unnatürliche Ergebnisse, wenn neutrale Sprecher versuchen, emotionale Sprache zu produzieren.

Innovation mit Deep Neural Networks und unüberwachtem Lernen

Um diese Herausforderungen zu meistern, integrierten die Forscher Emotionslabels in ein generatives tiefes neuronales Netzwerk – ein bahnbrechender Ansatz. Allerdings war das nicht ausreichend, um komplexe Emotionen und Sprechstile auszudrücken. Anschließend wurde ein unüberwachter Lernalgorithmus entwickelt, um Sprechstile und Emotionen aus einer großen Datenbank zu identifizieren. Das Training erfolgte ohne Emotionslabels, sodass das Modell wertvolle Darstellungen aus Sprachdaten ableiten konnte. Obwohl diese Darstellungen möglicherweise nicht menschlich interpretierbar sind, können sie Text-to-Speech-Algorithmen bei der Ausdrucksweise von Emotionen unterstützen.

Weitere Fortschritte umfassten das Training eines Wahrnehmungsneuronalen Netzwerks, um natürliche Sprachbeschreibungen von Emotionen in nutzbare Darstellungen zu konvertieren. „Mit dieser Technologie müssen Nutzer keine Hunderte unterschiedlicher Sprechstile oder Emotionen aufzeichnen. Das System lernt aus einer breiten Datenbank emotionaler Stimmen“, erklärt Kim.

Einfache Anpassung der Stimmmerkmale

Die Forscher erzielten erfolgreich „übertragbare und kontrollierbare emotionale Sprachsynthese“, indem sie latente Darstellungen nutzten. Techniken wie domänenadversariales Training und Zyklus-Konsistenzverlust ermöglichen es, die Merkmale des Sprechers vom Sprechstil zu entwirren. Durch die Analyse einer breiten Palette aufgezeichneter menschlicher Stimmen lernt das System emotionale Muster, Töne und Intonationen. Die Methode überträgt effektiv Emotionen auf einen neutralen Sprecher unter Verwendung nur weniger gelabelter Proben und ermöglicht eine Steuerung der Emotionsintensität durch intuitive Skalierungswerte.

Diese Innovation ermöglicht es Nutzern, einen kurzen Sprachsnippet aufzunehmen und dabei verschiedene Emotionen auszudrücken, ohne ihre einzigartige Stimmidentität zu verändern. Indem sie einfach fünf Minuten Sprache aufzeichnen, können sie Emotionen wie Freude, Trauer und Wut ausdrücken, selbst wenn sie normal sprechen. Typecasts Technologie wurde bereits von namhaften Unternehmen wie Samsung Securities und LG Electronics implementiert, während das Startup seit seiner Gründung im Jahr 2017 26,8 Millionen Dollar sichern konnte. Derzeit erforscht Typecast Anwendungen seiner Sprachsynthesetechnologien in der Mimik.

Die Bedeutung der Kontrollierbarkeit in generativer KI

In der sich schnell entwickelnden Medienlandschaft, wie Kim anmerkt, hat sich die Beliebtheit textbasierter Blogs hin zu Kurzvideos verschoben, was Einzelpersonen und Unternehmen zwingt, mehr Audio- und Videoinhalte als je zuvor zu produzieren. „Eine hochwertige, ausdrucksstarke Stimme ist entscheidend für die Vermittlung von Unternehmensbotschaften“, betont Kim.

Effizienz in der Produktion ist entscheidend, da die manuelle Arbeit von menschlichen Sprechern oft zu langsam ist. „Kontrollierbarkeit in der generativen KI ist entscheidend für die Content-Erstellung. Diese Technologien ermöglichen es Einzelpersonen und Unternehmen, ihr kreatives Potenzial auszuschöpfen und gleichzeitig die Produktivität zu steigern.“

Dell und Hugging Face arbeiten zusammen, um den Einsatz großer Sprachmodelle zu optimieren.

Wie Generative KI die Zukunft des Identitäts- und Zugriffsmanagements gestaltet

Most people like

Retalon

24.8K

In einer Ära, in der sich Technologie und Verbraucherverhalten schnell entwickeln, revolutionieren KI-Lösungen die Einzelhandelslandschaft. Durch die Nutzung der Leistungsfähigkeit Künstlicher Intelligenz können Einzelhändler ihre Abläufe optimieren, das Kundenerlebnis verbessern und datengestützte Entscheidungen treffen. Dieses Handbuch untersucht die innovativen KI-Technologien, die das intelligente Einzelhandelswesen prägen, und hilft Unternehmen, die Effizienz zu steigern und Kunden effektiver als je zuvor anzusprechen. Entdecken Sie, wie KI Ihre Einzelhandelsstrategie transformieren und Ihre Marke im digitalen Markt für den Erfolg positionieren kann.

KI-Lösungen AI Analytics Assistant

SnapXam

339.3K

Präsentation des KI-gestützten Mathe- und Physik-Tutors: Ihr ultimativer Lernbegleiter Entfalten Sie Ihr volles Potenzial in Mathe und Physik mit unserer fortschrittlichen, KI-gestützten Lernplattform. Unser AI-Tutor bietet personalisierte Unterstützung, passt sich Ihrem Lernstil an und hilft Ihnen, herausfordernde Konzepte zu verstehen und in Ihren Studien hervorragend abzuschneiden. Erleben Sie maßgeschneiderte Lektionen, sofortiges Feedback und ansprechende Übungen, die komplexe Themen leichter verständlich machen. Entdecken Sie die Zukunft der Bildung mit dem KI-gestützten Tutor, der Ihre Art zu lernen in Mathe und Physik revolutioniert!

Mathe-Löser Homework Helper

Komiko : AI Comics, AI Characters & AI Anime

8.4K

Natürlich! Bitte geben Sie die Einleitung an, die ich verfeinern soll.

KI-Comics AI Manga & Comic

berrycast

70.8K

Erfassen und teilen Sie ganz einfach Bildschirmaufnahmen mit dem intuitiven Tool von SimpleScreen. Erleben Sie mühelose Funktionalität und steigern Sie noch heute Ihre Produktivität!

Bildschirmaufnahme AI Video Recording

Find AI tools in YBX