Heute hat das in Dubai ansässige Unternehmen Camb AI, ein Startup, das auf KI-gesteuerte Technologien zur Lokalisierung von Inhalten spezialisiert ist, Mars5 vorgestellt – ein fortschrittliches KI-Modell zur Stimmklonung. Während viele Modelle, wie die von ElevenLabs, digitale Sprachduplikate erstellen können, zeichnet sich Mars5 durch eine unerreichte Realitätsnähe aus. Laut ersten Proben des Unternehmens ahmt Mars5 nicht nur die originale Stimme nach, sondern erfasst auch komplexe prosodische Elemente wie Rhythmus, Emotion und Intonation.
Camb AI unterstützt nahezu dreimal so viele Sprachen wie ElevenLabs und bietet über 140 Sprachen an, darunter auch weniger verbreitete wie Isländisch und Swahili, verglichen mit den 36 von ElevenLabs. Die spezifisch auf Englisch ausgerichtete Open-Source-Version ist ab heute auf GitHub verfügbar, während die umfassendere Sprachunterstützung über Cambs kostenpflichtigen Studio-Zugang abrufbar ist. „Der Grad an Prosodie und Realismus, den Mars5 mit nur wenigen Sekunden Eingabe erfasst, ist beispiellos. Dies markiert einen Durchbruch in der Sprachtechnologie“, sagte Akshat Prakash, Mitbegründer und CTO.
Integration von Stimmklonung und Text-to-Speech
Traditionell sind Stimmklonung und Text-to-Speech separate Prozesse: Stimmklonung erzeugt eine synthetische Stimme aus Audio-Proben, während Text-to-Speech diese Stimme nutzt, um Text vorzulesen. Mars5 integriert jedoch beide Funktionen in eine einzige Plattform. Nutzer laden einfach eine Audiodatei – die zwischen wenigen Sekunden und einer Minute lang sein kann – hoch und geben den zu synthetisierenden Text an. Das Modell analysiert das Audio, um die Stimme, den Stil, die Emotion und die Bedeutung des Sprechers nachzubilden und wandelt den Text in natürlich klingende Sprache um.
Camb AI behauptet, Mars5 fange eine breite Palette emotionaler Töne ein und bewältige komplexe Sprachsituationen wie Frustration, Befehl, Ruhe oder Enthusiasmus. Diese Vielseitigkeit macht Mars5 ideal für traditionell herausfordernde Inhalte wie Sportkommentare, Filme und Anime. Um diesen Grad an Prosodie zu erreichen, kombiniert Mars5 ein Mistral-ähnliches autoregressives Modell mit etwa 750 Millionen Parametern und ein innovatives nicht-autoregressives multinomiales Diffusionsmodell mit etwa 450 Millionen Parametern, das 6kbps Ecodec-Tokens nutzt.
„Das autoregressive Modell sagt die grundlegendsten Codebuchwerte für die Ecodec-Funktionen voraus, während das nicht-autoregressive Modell diese Vorhersagen verfeinert, indem es die verbleibenden Codebuch-Einträge ‚auffüllt‘. Dieser Ansatz nutzt einen Entnoise-Diffusionsprozess für verbesserte Genauigkeit“, erläuterte Prakash.
Leistung im Vergleich zu anderen Modellen
Obwohl spezifische Benchmark-Statistiken noch ausstehen, deuten frühe Tests darauf hin, dass Mars5 beliebte Sprachsynthesemodelle wie Metavoice und ElevenLabs übertrifft, oft mit Ergebnissen, die der originalen Stimme näher kommen als die Konkurrenz. „Obwohl ElevenLabs mit einem deutlich größeren Datensatz von über 500.000 Stunden trainiert wurde, erfasst unser Modell die Nuancen der Sprache effektiver. Während wir unsere Datensätze erweitern und Mars5 weiter trainieren – mit Updates auf GitHub – erwarten wir noch größere Verbesserungen“, fügte Prakash hinzu.
Camb AI bereitet außerdem die Veröffentlichung eines weiteren Open-Source-Modells namens Boli vor, das für Übersetzungen entwickelt wurde, die den Kontext verstehen, grammatikalische Genauigkeit sicherstellen und umgangssprachliche Nuancen erfassen. „Boli übertrifft traditionelle Übersetzungstools wie Google Translate, da es nuancierte, kulturell relevante Übersetzungen liefert, insbesondere für Sprachen mit niedrigen bis mittleren Ressourcen. Rückmeldungen zeigen, dass Boli mainstream Tools, einschließlich modernster generativer Modelle wie ChatGPT, erheblich übertrifft“, erklärte Prakash.
Derzeit unterstützen sowohl Mars5 als auch Boli 140 Sprachen auf Cambs eigener Plattform, Camb Studio, und das Unternehmen bietet diese Funktionen als APIs für Unternehmen, KMUs und Entwickler an. Camb AI arbeitet mit Major League Soccer, Tennis Australia und Maple Leaf Sports & Entertainment sowie führenden Film- und Musikstudios und verschiedenen Regierungsbehörden zusammen. Bemerkenswert ist, dass Camb AI Geschichte geschrieben hat, indem es ein Spiel der Major League Soccer über zwei Stunden lang in vier Sprachen live synchronisiert und die Pressekonferenz der Australian Open in mehrere Sprachen übersetzt hat sowie den psychologischen Thriller „Three“ von Arabisch nach Mandarin übertragen hat.