Nach dem erfolgreichen Start von Tools für Text-zu-Sprache und Sprache-zu-Sprache-Synthese richtet sich das KI-Startup ElevenLabs auf eine neue Herausforderung. Gegründet von ehemaligen Mitarbeitern von Google und Palantir, präsentierte das zweijährige Startup heute seine neueste Innovation: Sound Effects, ein Text-zu-Sound-KI-Tool.
Sound Effects ist jetzt auf der ElevenLabs-Website verfügbar und nutzt das proprietäre Grundmodell des Unternehmens, das es Kreativen ermöglicht, durch einfache Texteingabe eine Vielzahl von Audio-Proben zu generieren.
Ursprünglich im Februar mit Sora-generierten Clips, die durch KI-Soundeffekte verbessert wurden, angedeutet, repräsentiert Sound Effects einen bedeutenden Fortschritt für Content-Ersteller, die immersive Audioerlebnisse suchen.
Was können Kreative von Sound Effects erwarten?
Traditionell erforderte das Hinzufügen von Umgebungsgeräuschen zu Inhalten – wie sozialen Videos, Spielen, Filmen und Fernsehsendungen – dass Kreative entweder Geräusche manuell aufnehmen oder Audio-Dateien aus verschiedenen Online-Repositories kaufen. Dieser Ansatz kann einschränkend sein und führt oft zu einem Mangel an verfügbaren Sounds und Budgetbeschränkungen.
Mit Sound Effects vereinfacht ElevenLabs diesen Prozess. Nutzer können den gewünschten Sound mühelos in einfacher, gesprächiger Sprache beschreiben. Das zugrunde liegende Modell verarbeitet die Eingabe und generiert sechs einzigartige Audio-Proben zur Auswahl. Nutzer können jede Option anhören und ihre bevorzugten Proben direkt von der ElevenLabs-Plattform herunterladen oder speichern.
In ersten Tests stellte ein Medienunternehmen fest, dass Sound Effects klare Ausgaben innerhalb von 30-40 Sekunden produzierte, auch wenn nur vier anstelle von sechs Optionen generiert wurden. Diese Proben umfassten eine Vielzahl von Umgebungsgeräuschen – von Standardgeräuschen wie Gewittern und Türklingeln bis hin zu komplexeren Effekten wie quasselnden Affen und ankommenden Zügen.
Mati Staniszewski, CEO von ElevenLabs, betonte, dass das Tool auch längere Audio-Proben erzeugen kann, einschließlich instrumentaler Musik und Charakterstimmen. „Sound Effects kann instrumentale Stücke von bis zu 22 Sekunden mit Eingaben wie ‚Gitarrenschleife‘ oder ‚Jazz-Saxophon-Solo‘ generieren“, erklärte er. Nutzer können auch Charakterstimmen mit Eingaben wie „Eine Frau singt während sie im Sand tanzt“ oder „Ein Oger sagt: ‚Bleib weg, schwacher Mensch.‘“ erstellen. Außerdem können Sounds mit Eingaben wie „Eine fröhliche ältere Frau sagt: Ich bin so stolz auf dich, und lacht dann“ aneinandergereiht werden.
Obwohl keine spezifischen Details über das zugrunde liegende Modell veröffentlicht wurden, betonte ElevenLabs, dass es durch interne Forschung entwickelt und mithilfe von Shutterstocks umfangreicher Bibliothek lizenzierter Audiodateien fein abgestimmt wurde. Aimee Egan, Chief Enterprise Officer bei Shutterstock, äußerte sich begeistert über die Zusammenarbeit und sagte: „Die Synergie zwischen unserer reichen Bibliothek und dieser innovativen Audiotechnologie hat zu einem echten Markterst kommen.“
Ziel ist es, Kreative weltweit zu stärken
Seit seiner Gründung engagiert sich ElevenLabs für die Entwicklung fortschrittlicher KI-Audio-Lösungen. Das Unternehmen begann mit Text-zu-Sprache-Modellen in mehreren Sprachen, gefolgt von bedeutenden Produkten wie Sprachklonierung und KI-Dubbing, das Audio und Video in 29 Sprachen übersetzt und dabei die Stimme des Originalsprechers beibehält.
Mit Sound Effects erweitert ElevenLabs sein Angebot und bietet Kreativen – einschließlich Filmemachern, Spieleentwicklern, Vermarktern und Social-Media-Influencern – leistungsstärkere Tools zur Verbesserung ihrer Inhalte.
Obwohl Staniszewski keine spezifischen Unternehmen nannte, die derzeit das Produkt in der Alpha-Phase testen, erwähnte er, dass ElevenLabs 41% der Fortune 500 bedient, darunter namhafte Kunden wie The Washington Post, Storytel und TheSoul Publishing.
Für die Zukunft plant das Unternehmen die Einführung eines Musikgenerationsmodells und eines Voiceover-Studios, die sich beide in der Alpha-Phase befinden, wobei die Zeitpläne noch ungewiss sind.
Der Markt für KI-Sprach-, Sound- und Musikgenerierung boomt, mit Mitbewerbern wie Google, Meta, Suno, Pika, MURF.AI, Play.ht und WellSaid Labs. Laut Market US erreichte der globale Markt für diese Tools im Jahr 2022 1,2 Milliarden Dollar und wird bis 2032 voraussichtlich auf fast 5 Milliarden Dollar wachsen, mit einer jährlichen Wachstumsrate (CAGR) von über 15,40%.