Das in London ansässige Unternehmen Synthesia, ein Startup, das sich auf die Erstellung von KI-Videos für Unternehmen spezialisiert hat, hat seine Plattform um „ausdrucksstarke Avatare“ erweitert.
Ab sofort verbessern diese KI-Avatare die Fähigkeiten traditioneller digitaler Avatare, indem sie ihren Ton, Gesichtsausdrücke und Körpersprache an den Kontext des Inhalts anpassen. Dieser Launch folgt auf die jüngste Präsentation von Microsofts VASA, einem KI-Framework, das menschliche Porträts in animierte, sprechende und singende Videos mit ausdrucksvollen Bewegungen verwandelt. Im Gegensatz zu VASA, das als Forschungsprojekt weiterhin in der Entwicklung ist, bietet Synthesias ausdrucksstarke Avatare echte Technologien, um Unternehmen bei der Erstellung realistischerer KI-Videos für ihr Publikum zu unterstützen.
Synthesia: Ein innovativer Fortschritt in KI-Videos
Synthesia wurde 2017 von KI-Forschern und Unternehmern aus Stanford und Cambridge gegründet und hat eine umfassende Plattform entwickelt, die benutzerdefinierte KI-Stimmen und Avatare kombiniert. Nutzer können KI-Videos in Studioqualität mit vorgefertigten Skripten oder KI-generierten Inhalten erstellen, was zu einer breiten Akzeptanz bei Unternehmen geführt hat. Über 200.000 Nutzer haben mehr als 18 Millionen Videos erstellt, obwohl frühere Avatare nicht in der Lage waren, Emotionen effektiv auszudrücken — digitale Avatare konnten ihren Ton oder ihre Ausdrucksweise nicht in Echtzeit entsprechend dem Skript anpassen.
Mit der Einführung der ausdrucksstarken Avatare wird diese Einschränkung nun überwunden.
Laut Synthesia sind die neuen KI-Avatare in der Lage, die Stimmung und den Kontext innerhalb von Texten zu erfassen und ihre Ausdrucksweise entsprechend anzupassen. Sie können eine Vielzahl von Emotionen durch subtile Änderungen in ihren Gesichtsausdrücken, Blinzeln und Augenbewegungen vermitteln. So könnte ein Avatar lächeln, wenn er über ein freudiges Thema spricht, oder seine Sprache für ernste Inhalte verlangsamen.
„Unser Ziel ist es nicht nur, digitale Renderings zu erstellen, sondern digitale Schauspieler einzuführen“, erklärte Jon Starck, CTO von Synthesia, in einem Blogbeitrag. „Diese Technologie steigert den Realismus digitaler Avatare und verwischt die Grenze zwischen Virtuellem und Reellem.“
Technische Grundlage der ausdrucksstarken Avatare
Um dieses nuancierte Verständnis von Emotionen zu erreichen, verwendet Synthesia das Deep-Learning-Modell EXPRESS-1, das auf umfangreichen Text- und Videodaten trainiert wurde, die der gesprochenen Kommunikation in der realen Welt entsprechen.
„EXPRESS-1 sagt Bewegungen und Gesichtsausdrücke in Echtzeit voraus und stimmt perfekt mit Nuancen und Betonungen der Sprache überein, was zu außergewöhnlich natürlichen Darstellungen führt“, erklärte Starck. Die neuen Avatare bieten auch verbesserte Lippenbewegungen und Sprachfähigkeiten in mehrere Sprachen.
Auswirkungen der ausdrucksstarken Avatare
Obwohl KI-Avatare mit menschlichen Emotionen potenzielle Risiken für Missbrauch mit sich bringen, ist Synthesia bestrebt, positive Anwendungen für Unternehmen zu fördern, insbesondere in der Kommunikation und beim Wissensaustausch. So könnten beispielsweise Gesundheitsunternehmen ausdrucksstarke Avatare nutzen, um empathischere Patientenvideos zu erstellen, während Marketingteams Begeisterung für ein neues Produkt vermitteln könnten.
Um eine verantwortungsvolle Nutzung zu fördern, hat Synthesia seine Richtlinien überarbeitet, um bestimmte Inhaltsarten auf seiner Plattform einzuschränken, und investiert aktiv in Technologien zur frühzeitigen Erkennung von Missbrauch und zur Inhaltverifizierung wie C2PA.
Aktuell beschäftigt Synthesia 300 Mitarbeiter und arbeitet mit über 55.000 Unternehmen zusammen, darunter die Hälfte der Fortune 100. Zu den Kunden gehört Zoom, das von einer Steigerung der Effizienz um 90 % bei der Erstellung von Verkaufs- und Schulungsvideos mit Synthesia berichtet.