Después de lanzar con éxito herramientas para la síntesis de texto a voz y de voz a voz, la startup de voces AI ElevenLabs se dirige hacia una nueva frontera. Fundada por exempleados de Google y Palantir, la startup de dos años presentó hoy su última innovación: Sound Effects, una herramienta de AI que convierte texto en sonido.
Disponible ahora en el sitio web de ElevenLabs, Sound Effects aprovecha el modelo de base propietario de la compañía, permitiendo a los creadores generar muestras de audio diversas simplemente escribiendo una descripción del sonido deseado.
Inicialmente presentada en febrero con clips generados por Sora mejorados por efectos de sonido AI, Sound Effects representa un avance significativo para los creadores de contenido que buscan experiencias de audio inmersivas.
¿Qué Pueden Esperar los Creadores de Sound Effects?
Tradicionalmente, agregar sonidos ambientales a contenido—como videos sociales, juegos, películas y programas de televisión—requería que los creadores grabaran sonidos manualmente o compraran archivos de audio en varios repositorios en línea. Este enfoque puede ser limitado, generando una escasez de sonidos disponibles y posibles restricciones presupuestarias.
Sound Effects de ElevenLabs simplifica este proceso. Los usuarios pueden describir fácilmente el sonido que imaginan en lenguaje sencillo y conversacional. El modelo subyacente procesa la solicitud y genera seis muestras de audio únicas para que los usuarios elijan. Pueden escuchar cada opción y descargar o guardar las muestras preferidas directamente desde la plataforma de ElevenLabs.
En pruebas iniciales, un medio observó que Sound Effects producía salidas claras en 30-40 segundos, aunque se generaron solo cuatro opciones en lugar de seis. Estas muestras incluían una variedad de sonidos ambientales, desde ruidos estándar como tormentas y timbres, hasta efectos más complejos como monos chismeando y trenes llegando.
Mati Staniszewski, CEO de ElevenLabs, señaló que la herramienta puede generar muestras de audio más largas, incluyendo música instrumental y voces de personajes. “Sound Effects puede generar pistas instrumentales de hasta 22 segundos con solicitudes como 'bucle de guitarra' o 'solo de saxofón jazz,'” explicó. Los usuarios también pueden crear voces de personajes con solicitudes como “una mujer cantando mientras baila en la arena” o “un ogro diciendo: ‘mantente alejado, humano insignificante.’” Además, los usuarios pueden encadenar sonidos con solicitudes como: “Una anciana alegre dice que está tan orgullosa de ti, y luego ríe.”
Aunque no se han revelado detalles específicos sobre el modelo subyacente, ElevenLabs enfatizó que fue desarrollado a través de investigación interna y ajustado utilizando la extensa biblioteca de pistas de audio con licencia de Shutterstock. Aimee Egan, Directora de Empresa en Shutterstock, expresó su entusiasmo por la colaboración, afirmando: "La sinergia entre nuestra rica biblioteca y esta innovadora tecnología de audio ha dado lugar a un verdadero pionero en el mercado."
Con el objetivo de Empoderar a los Creadores a Nivel Global
Desde su lanzamiento, ElevenLabs se ha dedicado a crear soluciones avanzadas de audio AI. La compañía comenzó con modelos de texto a voz en múltiples idiomas, seguido de productos notables como clonación de voz y doblaje AI, que traducen audio y video a 29 idiomas mientras mantienen la voz del hablante original.
Con Sound Effects, ElevenLabs está ampliando su oferta, proporcionando a los creadores—incluyendo cineastas, desarrolladores de juegos, mercadólogos e influencers de redes sociales—herramientas más poderosas para elevar su contenido.
Aunque Staniszewski no divulgó empresas específicas que estén en pruebas alfa del producto, mencionó que ElevenLabs atiende al 41% de las Fortune 500, con clientes destacados como The Washington Post, Storytel y TheSoul Publishing.
De cara al futuro, la compañía planea presentar un modelo de generación musical y un estudio de locución, ambos actualmente en pruebas alfa, aunque los plazos permanen inciertos.
El mercado de generación de voz, sonido y música AI está en auge, con competidores como Google, Meta, Suno, Pika, MURF.AI, Play.ht y WellSaid Labs. Según Market US, el mercado global para estas herramientas alcanzó los 1.2 mil millones de dólares en 2022 y se proyecta que crecerá a casi 5 mil millones de dólares para 2032, con una tasa de crecimiento anual compuesta (CAGR) de más del 15.40%.