ElevenLabs bringt Open-Source-Tool zum mühelosen Hinzufügen von Soundeffekten zu Videos auf den Markt

Wochen nach der Einführung seiner Sound Effects Text-zu-Sound KI präsentiert das KI-Sprachstartup ElevenLabs ein Open-Source-Tool, das die Möglichkeiten der Technologie unter Beweis stellt. In nur 15 Sekunden ermöglicht diese Anwendung den Creators, Klangmuster für ihre Videos zu generieren, indem sie den importierten Clip analysiert und mehrere Klangoptionen anbietet.

Entwickler können den Code der App auf GitHub einsehen, während eine spezielle Website der Öffentlichkeit ermöglicht, mit der Sound Effects API zu experimentieren.

Nach dem Hochladen eines Videos extrahiert die Video-to-Sound Effects App vier Frames in einsekündigen Abständen auf der Client-Seite. Diese Frames werden zusammen mit einem Prompt an OpenAIs GPT-4 gesendet, um einen maßgeschneiderten Text-zu-Sound Effects Prompt zu erstellen. Dieser wird dann verwendet, um die Soundeffekte über ElevenLabs’ Sound Effects API zu generieren. Schließlich werden Video und Audio auf der Client-Seite in eine einzelne herunterladbare Datei kombiniert, die bis zu 22 Sekunden lang ist.

„Wir sehen dies als einen Beweis für das, was Nutzer mit unserer SFX API erreichen können“, sagt Ammaar Reshi, Design-Leiter bei ElevenLabs. „KI-Videokünstler suchen oft nach dem perfekten Soundeffekt. Unser Ziel ist es, diesen Prozess zu optimieren, indem wir Video-Frames analysieren und optimale Ausgaben vorschlagen.“ Er betont das Potenzial für dynamische Erlebnisse, insbesondere in immersiven Videospielen, in denen sich Soundeffekte basierend auf den Interaktionen der Spieler weiterentwickeln können.

Die API ermöglicht es Entwicklern, maßgeschneiderte KI-Soundeffekte mit kurzen Beschreibungen zu erstellen. ElevenLabs erhebt Gebühren basierend auf der Nutzung, entweder 100 Zeichen pro Generierung mit automatischer Dauer oder 25 Zeichen pro Sekunde für eine festgelegte Dauer.

In einem kurzen Test war die Video-to-Sound Effects App einfach zu bedienen. Nach dem Import eines stummen Clips eines Fahrzeugs in einem Geländeszenario generierte die KI von ElevenLabs vier Soundoptionen, die alle einem Auto ähnelten, das einen Kiesweg befährt. Während das Hinzufügen von Soundeffekten zu Clips unterhaltsam sein kann, liegt das wahre Potenzial in der Integration dieser Funktion in umfangreichere Systeme für eine größere Wirkung.

Während sich die Landschaft der KI-Videoerstellung weiterentwickelt, strebt ElevenLabs an, an der Spitze zu bleiben, indem innovative Audio-Lösungen entwickelt werden, die den Bedürfnissen von Entwicklern, Filmemachern und Content-Creators gerecht werden.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles