Semanas después del lanzamiento de su IA de texto a sonido para Efectos de Sonido, la startup de voz AI ElevenLabs presenta una herramienta de código abierto diseñada para mostrar sus capacidades. En solo 15 segundos, esta aplicación permite a los creadores generar muestras de efectos de sonido para sus videos al analizar el clip importado y ofrecer múltiples opciones de sonido.
Los desarrolladores pueden acceder al código de la aplicación en GitHub, mientras que un sitio web dedicado permite al público experimentar con la API de Efectos de Sonido.
Cuando se sube un video, la aplicación Video a Efectos de Sonido extrae cuatro fotogramas en intervalos de un segundo en el lado del cliente. Estos fotogramas, junto con un aviso, se envían al GPT-4 de OpenAI para crear un aviso personalizado de texto a efectos de sonido. Luego, se utiliza para generar efectos de sonido a través de la API de Efectos de Sonido de ElevenLabs. Finalmente, el video y el audio se combinan en el lado del cliente en un solo archivo descargable, con una duración de hasta 22 segundos.
“Vemos esto como una prueba de concepto de lo que los usuarios pueden lograr con nuestra API de SFX”, afirma Ammaar Reshi, líder de diseño de ElevenLabs. “Los creadores de videos AI a menudo buscan el efecto de sonido perfecto, y nuestro objetivo es simplificar ese proceso analizando los fotogramas de video y sugiriendo salidas óptimas.” Resalta el potencial de experiencias dinámicas, especialmente en videojuegos inmersivos, donde los efectos de sonido pueden evolucionar según las interacciones del jugador.
La API permite a los desarrolladores crear efectos de sonido AI personalizados utilizando descripciones breves. ElevenLabs cobra según el uso, ya sea 100 caracteres por generación con duración automática o 25 caracteres por segundo para una duración establecida.
En una rápida prueba, la aplicación de video a efectos de sonido resultó fácil de usar. Después de importar un clip silencioso de un vehículo en un entorno todoterreno, la IA de ElevenLabs generó cuatro opciones de sonido, todas similares a un automóvil navegando por un camino de grava. Si bien agregar efectos de sonido a los clips puede ser entretenido, el verdadero potencial radica en integrar esta capacidad en sistemas más amplios para un mayor impacto.
A medida que evoluciona el panorama de generación de videos AI, ElevenLabs busca mantenerse a la vanguardia innovando soluciones de audio que satisfagan las necesidades de desarrolladores, cineastas y creadores de contenido.