El equipo de Investigación Fundamental en IA (FAIR) de Meta está presentando varios nuevos modelos y herramientas de IA para investigadores, centrándose en la generación de audio, capacidades de texto a imagen y tecnologías de marcación digital.
“Al compartir nuestra investigación inicial públicamente, aspiramos a inspirar la innovación y avanzar en la IA de manera responsable,” afirmó la empresa en un comunicado de prensa.
Modelo de Creación de Audio: JASCO y Herramientas de Marcado Digital
Meta presenta JASCO, que significa Condicionamiento Conjunto de Audio y Simbólico para la Generación de Música Controlada Temporalmente a partir de Texto. Este modelo mejora la creación de audio al permitir a los usuarios introducir diversos elementos, como acordes o ritmos, para refinar el resultado final. La investigación de FAIR indica que JASCO permite manipular características del audio generado—como acordes, percusiones y melodías—mediante comandos textuales, facilitando el sonido deseado.
FAIR lanzará el código de inferencia de JASCO como parte de su biblioteca de modelos de audio AI AudioCraft bajo una licencia MIT, mientras que el modelo preentrenado estará disponible bajo una licencia Creative Commons no comercial. Además, Meta lanzará AudioSeal, una herramienta innovadora que marca digitalmente el discurso generado por IA, ayudando a identificar este contenido de manera más efectiva.
Meta asegura, “AudioSeal es la primera técnica de marcado de audio diseñada específicamente para la detección localizada del discurso generado por IA, permitiendo identificar segmentos creados por IA dentro de archivos de audio más largos.” Esta herramienta mejora la eficiencia de detección, aumentando la velocidad de identificación en 485 veces en comparación con métodos tradicionales. A diferencia de otros modelos, AudioSeal se lanzará bajo una licencia comercial.
Lanzamiento del Modelo Chameleon
FAIR también planea lanzar dos versiones de su modelo multimodal de texto, Chameleon, bajo una licencia exclusiva para investigación. Los modelos Chameleon 7B y 34B están diseñados para tareas que requieren comprensión visual y textual, como la creación de descripciones de imágenes. Sin embargo, Meta ha anunciado que no hará disponible el modelo de generación de imágenes de Chameleon en este momento, limitando el acceso a las funcionalidades relacionadas con texto.
Además, los investigadores tendrán acceso a un método de predicción multi-token que entrena modelos de lenguaje en múltiples palabras futuras simultáneamente en lugar de de forma secuencial. Esta característica estará disponible exclusivamente bajo una licencia no comercial y solo para investigación.