Innerhalb von nur zwei Jahren nach seiner Gründung durch ehemalige Mitarbeiter von Google und Palantir hat ElevenLabs, ein KI-Stimmen-Startup, den Status eines Einhorns erreicht. Das Unternehmen gab kürzlich eine Finanzierungsrunde der Serie B in Höhe von 80 Millionen US-Dollar bekannt, die seine Bewertung auf das Zehnfache auf 1,1 Milliarden US-Dollar steigerte.
Diese Investition wird von den bestehenden Geldgebern Andreessen Horowitz (a16z), dem ehemaligen GitHub-CEO Nat Friedman und dem ehemaligen Apple AI-Chef Daniel Gross geleitet, unterstützt durch Beiträge von Sequoia Capital und SV Angel. Diese Runde folgt auf eine Serie-A-Finanzierungsrunde über 19 Millionen US-Dollar vor sechs Monaten, bei der ElevenLabs mit etwa 100 Millionen US-Dollar bewertet wurde.
Pionierarbeit in der KI-Stimmtechnologie
ElevenLabs hat sich auf die Verwendung von maschinellem Lernen für Sprachklonierung und -synthese in mehreren Sprachen spezialisiert. Das neu gewonnene Kapital wird die Forschung und Produktangebote des Unternehmens erweitern. Zudem wurden mehrere neue Funktionen eingeführt, darunter ein Synchronisationswerkzeug für vollständige Filme und ein Marktplatz, auf dem Nutzer ihre geklonten Stimmen verkaufen können.
Inhalte universell zugänglich machen
Da Dialekte und Sprachen stark variieren, konzentrierte sich die lokale Inhaltsproduktion traditionell auf Hauptsprachen und arbeitete häufig mit manueller Synchronisation, die der Originalinhalte nicht gerecht wird. Die Gründer Piotr Dabkowski und Mati Staniszewski, beide aus Polen, erlebten die Herausforderungen mangelhafter Synchronisation, die sie motivierten, ElevenLabs zu gründen. Ihre Mission ist es, den Zugang zu Inhalten durch den Einsatz von KI zu demokratisieren.
Seit dem Start im Jahr 2022 hat ElevenLabs bedeutende Meilensteine erreicht. Zunächst bekannt für sein natürlich klingendes KI-Text-in-Sprache-Modell in Englisch, hat das Unternehmen seine Fähigkeiten mit den multilingualen Versionen 1 und 2 erweitert, die nun mehrere Sprachen unterstützen, darunter Polnisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch und Hindi. Die Voice Lab-Funktion ermöglicht es Nutzern, ihre Stimmen zu klonen oder synthetische Stimmen zu generieren und Text in Audioinhalte umzuwandeln.
„Die Technologie von ElevenLabs nutzt Kontextbewusstsein und hohe Kompression, um ultra-realistischen Sprachoutput zu liefern. Unser proprietäres Modell versteht Wortbeziehungen und passt die Lieferung basierend auf dem Kontext an und sagt dynamisch tausende von Stimmeigenschaften voraus“, erklärte Staniszewski.
Eine wachsende Nutzerbasis
In nur wenigen Monaten zog ElevenLabs über eine Million Nutzer an. Der Launch von AI Dubbing, einem Sprach-zu-Sprache-Umwandlungswerkzeug, ermöglicht es Content-Erstellern, Audio und Video in 29 Sprachen zu übersetzen, während die Stimme und Emotionen des Originalsprechers erhalten bleiben. Bemerkenswerterweise gehören 41 % der Fortune 500 zu den Kunden, darunter prominente Publisher wie Storytel, The Washington Post und TheSoul Publishing.
„Derzeit haben wir über 100 B2B-Partnerschaften geschlossen. KI-Stimmen bieten umfassende Anwendungsmöglichkeiten, von der Verbesserung des Nutzererlebnisses bis zur Erweiterung des Bildungszugangs“, bemerkte Staniszewski.
Vorstellung des Dubbing Studios
Um sein Produktportfolio weiter zu innovieren, führt ElevenLabs das Dubbing Studio ein, das das AI Dubbing-Tool verbessert. Dieser neue Workflow bietet Fachleuten robuste Werkzeuge, um vollständige Filme in verschiedenen Sprachen zu synchronisieren und Transkripte, Übersetzungen und Zeitcodes zu generieren und zu bearbeiten. Momentan umfasst es jedoch keine Lippenbewegungen, was bedeutet, dass die Lippenbewegungen im Originalvideo unverändert bleiben.
Neue Marktplätze und Zugänglichkeitsfunktionen
Darüber hinaus führt ElevenLabs eine Zugänglichkeits-App ein, die Texte oder URLs in Audio umwandelt, sowie eine Voice Library, die es Nutzern ermöglicht, ihre KI-geklonten Stimmen zu monetarisieren. Nutzer können Verfügbarkeiten und Entlohnung festlegen, obwohl das Teilen einen mehrstufigen Verifizierungsprozess erfordert, um die Authentizität sicherzustellen.
„Die Stimmverifizierung umfasst einen Captcha-Prozess, um zu bestätigen, dass die Stimme mit den Trainingsmustern übereinstimmt, unterstützt von unserem Moderationsteam“, bemerkte der CEO.
Während diese Funktionen in den kommenden Wochen verfügbar werden, zielt ElevenLabs darauf ab, Nutzer aus verschiedenen Sektoren zu gewinnen. Mit dieser Finanzierung, die die Gesamtsumme auf 101 Millionen US-Dollar bringt, plant das Unternehmen, seine Forschung zur KI-Stimmtechnologie zu erweitern, die Infrastruktur zu verbessern und gezielte Produkte zu entwickeln, während es robuste Sicherheitskontrollen implementiert, einschließlich eines KI-Audioklassifizierers.
„In den kommenden Jahren streben wir an, uns als globaler Marktführer in der Forschung und Produktbereitstellung für Sprach-KI zu etablieren“, sagte Staniszewski.
Zu den Wettbewerbern im Bereich der KI-Stimmgenerierung gehören MURF.AI, Play.ht und WellSaid Labs. Laut Market US hatte der globale Markt für diese Tools im Jahr 2022 einen Wert von 1,2 Milliarden US-Dollar und wird bis 2032 voraussichtlich auf etwa 5 Milliarden US-Dollar anwachsen, was einer jährlichen Wachstumsrate (CAGR) von etwa 15,4 % entspricht.