Startups wie ElevenLabs haben Millionen in die Entwicklung proprietärer Algorithmen und KI-Software für die Sprachsynthese investiert, um Audio-Programme zu erstellen, die die Stimmen der Nutzer nachahmen. Jetzt präsentieren Forscher des Massachusetts Institute of Technology (MIT), der Tsinghua-Universität in Peking und Mitglieder des KI-Startups MyShell OpenVoice – eine Open-Source-Lösung zur Sprachsynthese, die nahezu sofortige Ergebnisse liefert und detaillierte Steuerungsoptionen bietet, die in anderen Plattformen nicht vorhanden sind.
„Klonen Sie Stimmen mit unerreichter Präzision, indem Sie Tonfall, Emotion, Akzent, Rhythmus, Pausen und Intonation nur aus einem kleinen Audioschnipsel anpassen“, erklärt MyShell in einem aktuellen Beitrag auf X. Das Unternehmen hat einen Link zu seiner Forschungsarbeit geteilt, die die Entwicklung von OpenVoice beschreibt, sowie Zugangspunkte für Nutzer, um es auszuprobieren: die MyShell-Webanwendung (Nutzerkonto erforderlich) und HuggingFace (öffentlicher Zugang ohne Konto).
In einer E-Mail betonte der leitende Forscher Zengyi Qin vom MIT und MyShell das Ziel des Projekts: „MyShell möchte der Forschungsgemeinschaft zugutekommen. OpenVoice ist erst der Anfang. In Zukunft werden wir Stipendien, Datensätze und Rechenressourcen zur Unterstützung von Open-Source-Forschung bereitstellen. Unsere Kernmission lautet ‘KI für alle.’“
Zur Motivation hinter OpenVoice erklärte Qin: „Sprache, Vision und Stimme sind drei Schlüsselmodalitäten für zukünftige künstliche allgemeine Intelligenz (AGI). Während es verschiedene Open-Source-Modelle für Sprache und Vision gibt, fehlte ein leistungsfähiges, sofort einsetzbares Sprachsynthese-Modell zur Anpassung, weshalb wir dieses Projekt in Angriff genommen haben.“
Verwendung von OpenVoice
In informellen Tests mit HuggingFace erzeugte ich schnell eine überzeugende – wenn auch etwas robotische – Nachbildung meiner Stimme mit zufälliger Sprache. Im Gegensatz zu anderen Sprachsynthese-Anwendungen erlaubte mir OpenVoice, frei zu sprechen, ohne mich an ein bestimmtes Skript halten zu müssen. In nur wenigen Sekunden hatte ich einen Sprachklon, der meinen Text prompt genau wiedergab. Zudem konnte ich den „Stil“ des Klons zwischen verschiedenen emotionalen Voreinstellungen wie fröhlich, traurig oder wütend anpassen und so den Ton verändern.
Hier ist ein Beispiel meines Sprachklons mit OpenVoice im "freundlichen" Tonfall.
Entwicklung von OpenVoice
Die Schöpfer von OpenVoice – Qin, Wenliang Zhao und Xumin Yu von der Tsinghua-Universität sowie Xin Sun von MyShell – skizzierten in ihrer Forschungsarbeit ihre Methode. OpenVoice besteht aus zwei wichtigen KI-Modellen: einem Text-to-Speech (TTS)-Modell und einem Ton-Konverter.
Das TTS-Modell verwaltet Stilparameter und Sprachen, trainiert anhand von 30.000 Sätzen von zwei englischen Sprechern (mit amerikanischem und britischem Akzent), einem chinesischen Sprecher und einem japanischen Sprecher, die jeweils mit bestimmten Emotionen gekennzeichnet sind. Es erlernte Nuancen wie Intonation, Rhythmus und Pausen. Der Ton-Konverter wurde anhand von über 300.000 Audiodateien von mehr als 20.000 Sprechern trainiert. Die Sprache wird in Phoneme – unterschiedliche Laute, die Wörter unterscheiden – umgewandelt und als Vektoreinbettungen dargestellt.
Durch die Nutzung eines „Basissprechers“ für das TTS-Modell in Kombination mit Toninformationen aus Benutzereingaben können diese Modelle die Stimme des Nutzers replizieren und ihre emotionale Ausdrucksweise anpassen. Das Diagramm in der OpenVoice-Forschung veranschaulicht, wie diese Modelle zusammenarbeiten.
Trotz der konzeptionellen Einfachheit ist diese Methode effizient und benötigt deutlich weniger Rechenressourcen als Konkurrenten wie Metas Voicebox. Qin sagte: „Wir wollten das flexibelste Modell zur sofortigen Sprachsynthese entwickeln. Diese Flexibilität bedeutet Kontrolle über Stile, Emotionen, Akzente und Anpassungsfähigkeit an jede Sprache. Bisher war eine so umfassende Funktionalität aufgrund ihrer Komplexität nicht erreichbar. Durch einen entkoppelten Pipeline-Prozess haben wir effektive Ergebnisse mit Einfachheit erzielt.“
Hinter OpenVoice
MyShell, gegründet 2023 mit einer Seed-Runde von 5,6 Millionen Dollar, angeführt von INCE Capital sowie Beiträgen von Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC und OP Crypto, verzeichnet bereits über 400.000 Nutzer, wie von The SaaS News berichtet. Bei meinen Recherchen bemerkte ich über 61.000 Nutzer auf ihrem Discord-Server.
MyShell beschreibt sich als eine „dezentralisierte und umfassende Plattform zur Entdeckung, Erstellung und Staking von KI-nativen Anwendungen“. Neben OpenVoice enthält ihre Webanwendung verschiedene textbasierte KI-Charaktere und Bots mit unterschiedlichen Persönlichkeiten, ähnlich wie Character.AI, und umfasst Tools wie einen animierten GIF-Maker und von Nutzern erstellte RPGs basierend auf beliebten Franchises.
Was die Monetarisierung betrifft, so erhebt MyShell eine monatliche Abonnementgebühr für Webanwendungsnutzer und für Drittanbieter, die ihre Produkte innerhalb der App bewerben möchten. Zudem werden Gebühren für KI-Trainingsdaten erhoben.