Nach der perfekten Entwicklung von Machine Learning (ML) Sprachklonierung und -synthese erweitert das zwei Jahre alte KI-Startup ElevenLabs, gegründet von ehemaligen Google- und Palantir-Mitarbeitern, sein Angebot mit einem neuen Text-zu-Sound-Modell.
Kürzlich angekündigt, wird diese innovative KI es Kreativen ermöglichen, Geräuschkulissen einfach durch Wortbeschreibungen zu erzeugen und damit die Inhalte im sich entwickelnden Bereich der KI-gesteuerten digitalen Erlebnisse zu verbessern. Obwohl das Modell noch nicht öffentlich zugänglich ist, hat ElevenLabs einen Teaser veröffentlicht, der seine Fähigkeiten mit von OpenAI erzeugten Videos zeigt, die mit KI-generierten Klängen des Unternehmens ergänzt sind. Zudem wurde eine Anmeldeseite für eine Warteliste für den frühen Zugang eingerichtet.
Erweiterung der Audiomöglichkeiten mit KI-Soundeffekten
Seit 2022 widmet sich ElevenLabs der besseren Zugänglichkeit von Audio- und Videoinhalten über Sprachen und Regionen hinweg. Das Unternehmen bietet eine Vielzahl von Tools an, darunter Text-zu-Sprache- und Sprache-zu-Sprache-Modelle, die in der Lage sind, KI-generierte Sprache aus unterschiedlichen Inhaltsquellen (Text, Audio oder Video) in 29 Sprachen zu produzieren, während sie die natürliche Stimme und emotionale Darstellung bewahren.
Diese Tools gewinnen bei Unternehmen und einzelnen Inhaltserstellern an Beliebtheit. Zeitgleich steigt die gesamte KI-generierte Inhaltserstellung, ermöglicht durch Werkzeuge wie Runway und Pika sowie OpenAIs Sora. Während diese Produkte realistische Videos aus einfachen Texteingaben erstellen können, fehlt oft der dazugehörige Sound. Das neue Modell von ElevenLabs zielt darauf ab, diese Lücke zu schließen und Nutzern zu ermöglichen, Soundeffekte für ihre Inhalte basierend auf textlichen Beschreibungen zu erzeugen.
Mit diesem Angebot können KI-Kreative ihre Projekte nahtlos mit Hintergrundgeräuschen bereichern, von Vogelgezwitscher bis hin zu lebhaften Straßengeräuschen. „Bei ElevenLabs haben wir in erster Linie unsere Text-zu-Sprache-Modelle öffentlich präsentiert, aber wir haben noch viel mehr in Entwicklung. Als OpenAI Sora enthüllte, das beeindruckende Videos ohne Ton generiert, haben wir beschlossen, einen Vorgeschmack auf unsere kommenden Produkte zu geben“, sagte Luke Harries, Wachstumsleiter von ElevenLabs, während er einen Beitrag mit Sora-generierten Videos, die mit ElevenLabs' KI-Soundeffekten angereichert sind, teilte.
Die von diesem neuen Modell erzeugten Klänge könnten auch auf gesprochene Inhalte aus Text oder jedes Videoprojekt mit benötigtem Hintergrundaudio angewendet werden, wie Instagram-Clips, Werbespots oder Videospiel-Trailer. Die Qualität und Vielseitigkeit dieser Soundeffekte müssen noch bewertet werden.
Jetzt für den frühen Zugang anmelden
Obwohl ElevenLabs kein öffentliches Veröffentlichungsdatum bekannt gegeben hat, nehmen sie nun Anmeldungen für den frühen Zugang an. Interessierte können die Anmeldeseite besuchen, ihren Namen und ihre E-Mail-Adresse angeben und ihren beabsichtigten Verwendungszweck für die Soundeffekte beschreiben. Frühe Freiwillige werden ermutigt, ein Beispiel-Prompt für einen KI-Soundeffekt zu erstellen, um die Reaktionen des Modells zu optimieren.
Nach der Registrierung werden die Nutzer auf eine Warteliste gesetzt und erhalten Zugang, sobald das Modell verfügbar ist, obwohl der Zeitrahmen noch unklar ist.
Obwohl ElevenLabs mit dieser Technologie möglicherweise einen ersten Vorteil hat, haben auch andere Unternehmen im Bereich KI-Sprache, wie MURF.AI, Play.ht und WellSaid Labs, das Potenzial, ähnliche Produkte zu entwickeln. Laut Market US wurde der globale Markt für KI-Audiotools im Jahr 2022 auf 1,2 Milliarden USD geschätzt und soll bis 2032 auf fast 5 Milliarden USD anwachsen, mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von über 15,40 %.