Stability AI avanza en su visión de inteligencia artificial generativa con el lanzamiento del modelo Stable Audio 2.0. Reconocida por sus modelos de generación de imágenes a partir de texto, como Stable Diffusion, la compañía amplía su portafolio. Stable Audio debutó en septiembre de 2023, permitiendo a los usuarios crear clips de audio cortos basados en indicaciones textuales. Con Stable Audio 2.0, los usuarios ahora pueden generar pistas de audio de alta calidad de hasta tres minutos, el doble de los 90 segundos iniciales.
Además de la generación de texto a audio, Stable Audio 2.0 introduce capacidades de audio a audio, lo que permite a los usuarios subir muestras y utilizarlas como indicaciones. El modelo está disponible para un uso limitado gratuito en el sitio web de Stable Audio, y el acceso a la API estará disponible pronto para desarrolladores que deseen crear servicios innovadores.
El lanzamiento de Stable Audio 2.0 representa la primera actualización importante de Stability AI desde la abrupta renuncia del ex CEO y fundador Emad Mostaque en marzo. La compañía asegura a los usuarios que esta actualización refleja la continuidad de sus operaciones comerciales.
Mejoras de Stable Audio 1.0 a 2.0
El desarrollo de Stable Audio 2.0 ha incorporado valiosas ideas de su predecesor, Stable Audio 1.0. Zach Evans, jefe de investigación de audio en Stability AI, indicó que el enfoque en el lanzamiento inicial era presentar un modelo innovador con alta fidelidad de audio y una duración de salida significativa. “Desde entonces, nos hemos centrado en mejorar la musicalidad, extender la duración de salida y aumentar la capacidad de respuesta a indicaciones detalladas”, afirmó Evans. “Estas mejoras buscan hacer la tecnología más aplicable en escenarios reales.”
Stable Audio 2.0 ahora puede producir pistas musicales completas con estructuras coherentes. Utilizando tecnología de difusión latente, el modelo genera composiciones de hasta tres minutos, con secciones distintas de introducción, desarrollo y conclusión, una mejora significativa en comparación con su capacidad anterior de crear solo breves bucles o fragmentos.
La Tecnología Detrás de Stable Audio 2.0
Stable Audio 2.0 sigue utilizando un modelo de difusión latente (LDM). Tras el lanzamiento beta en diciembre de 2023 de Stable Audio 1.1, el modelo incorporó una arquitectura de “transformador de difusión”. “Mejoramos la compresión de datos aplicada al audio durante el entrenamiento, lo que nos permite escalar las salidas hasta tres minutos y más, manteniendo tiempos de inferencia eficientes”, agregó Evans.
Capacidades Creativas Mejoradas
Con Stable Audio 2.0, los usuarios pueden generar audio no solo a partir de indicaciones textuales, sino también de muestras de audio subidas. Se pueden utilizar instrucciones en lenguaje natural para transformar creativamente estos sonidos, lo que permite procesos de refinamiento y edición iterativos.
El modelo también amplía el espectro de efectos de sonido y texturas. Los usuarios pueden solicitar la creación de entornos inmersivos, sonidos ambientales, multitudes, paisajes urbanos, y más. Además, se pueden modificar el estilo y el tono tanto del audio generado como del cargado.
Abordando las Preocupaciones sobre Derechos de Autor en Audio Generativo
Las consideraciones sobre derechos de autor siguen siendo un asunto importante en el ámbito de la inteligencia artificial generativa. Stability AI está comprometida a defender los derechos de propiedad intelectual con su nuevo modelo de audio. Para mitigar preocupaciones de copyright, Stable Audio 2.0 ha sido entrenado exclusivamente con datos licenciados de AudioSparx y respeta las solicitudes de exclusión. La tecnología de reconocimiento de contenido supervisa las subidas de audio para prevenir el procesamiento de material protegido.
Proteger los derechos de autor es esencial para que Stability AI comercialice con éxito Stable Audio y garantice un uso seguro para las organizaciones. Actualmente, Stable Audio genera ingresos a través de suscripciones a su aplicación web, con una API que se lanzará pronto. Sin embargo, Stable Audio no es un modelo abierto en este momento. “Los pesos de Stable Audio 2.0 no estarán disponibles para descarga, pero estamos desarrollando modelos de audio abiertos que se lanzarán más adelante este año”, confirmó Evans.