El Instituto Allen para la IA (Ai2) ha lanzado oficialmente Molmo, un conjunto de modelos de IA multimodal de código abierto que superan a los competidores propietarios más destacados, incluyendo GPT-4o de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 1.5 de Google, según varios benchmarks de terceros.
Como modelos multimodales, Molmo puede analizar imágenes y archivos, de forma similar a los modelos de fundación líderes en el mercado. Ai2 destaca que Molmo utiliza "1000 veces menos datos" que sus contrapartes propietarias, gracias a innovadores métodos de entrenamiento detallados en un nuevo informe técnico publicado por la compañía fundada por Paul Allen, liderada por Ali Farhadi.
Ai2 también compartió un video de demostración en YouTube que muestra cómo Molmo funciona en smartphones para analizar escenas en vivo de manera eficiente. Los usuarios solo necesitan tomar una foto para un procesamiento inmediato, con ejemplos como contar personas, identificar elementos veganos en el menú, interpretar folletos, distinguir bandas de música electrónica y convertir notas manuscritas de pizarras en tablas estructuradas.
Este lanzamiento refleja el compromiso de Ai2 con la investigación abierta, proporcionando modelos de alto rendimiento, junto con pesos y datos accesibles, para que la comunidad y las empresas que buscan soluciones personalizables puedan beneficiarse.
Molmo sigue a la reciente introducción de Ai2 de OLMoE, un modelo rentable que utiliza una arquitectura de "mezcla de expertos".
Variantes y Rendimiento del Modelo
Molmo consta de cuatro modelos principales con diferentes tamaños de parámetros y capacidades:
- Molmo-72B: El modelo insignia con 72 mil millones de parámetros, basado en Qwen2-72B de Alibaba Cloud.
- Molmo-7B-D: Un modelo de demostración derivado de Qwen2-7B de Alibaba.
- Molmo-7B-O: Basado en OLMo-7B de Ai2.
- MolmoE-1B: Un modelo enfocado en la eficiencia, que casi iguala el rendimiento de GPT-4V en benchmarks académicos y preferencias de usuarios.
Estos modelos demuestran capacidades impresionantes en varios benchmarks de terceros, superando consistentemente a muchas alternativas propietarias. Todos los modelos están disponibles bajo licencias permisivas Apache 2.0, permitiendo una amplia investigación y uso comercial.
Molmo-72B destaca en evaluaciones académicas, alcanzando las puntuaciones más altas en 11 benchmarks clave y ocupando el segundo lugar en preferencias de usuarios, justo detrás de GPT-4o.
Vaibhav Srivastav, defensor de desarrolladores de aprendizaje automático en Hugging Face, subrayó que Molmo establece una alternativa robusta a los sistemas cerrados, elevando el estándar para la IA multimodal abierta. Además, Ted Xiao, investigador de robótica en Google DeepMind, elogió la inclusión de datos de señalización en Molmo, un avance vital para el anclaje visual en robótica, mejorando la interacción con entornos físicos.
Arquitectura Avanzada y Entrenamiento
La arquitectura de Molmo está diseñada para una eficiencia y rendimiento óptimos. Cada modelo utiliza el modelo ViT-L/14 336px CLIP de OpenAI como codificador visual, transformando imágenes a múltiples escalas en tokens visuales. Estos tokens se procesan a través de un conector de perceptrón multicapa (MLP) antes de integrarse en el modelo de lenguaje.
El protocolo de entrenamiento consta de dos etapas cruciales:
- Pre-entrenamiento Multimodal: Los modelos se entrenan para generar descripciones de imágenes a partir de descripciones detalladas proporcionadas por anotadores humanos, utilizando un conjunto de datos de alta calidad conocido como PixMo.
- Ajuste Fino Supervisado: Los modelos se ajustan en un conjunto de datos diverso que incluye benchmarks académicos y conjuntos de datos recientemente desarrollados, equipándolos para tareas complejas como lectura de documentos y razonamiento visual.
A diferencia de muchos modelos contemporáneos, Molmo no depende del aprendizaje por refuerzo mediante retroalimentación humana (RLHF), sino que utiliza un pipeline de entrenamiento calibrado que actualiza todos los parámetros en función de los estados de pre-entrenamiento.
Rendimiento en Benchmarks
Los modelos Molmo muestran resultados sobresalientes en diferentes benchmarks, superando notablemente a los modelos propietarios. Por ejemplo, Molmo-72B obtiene una puntuación de 96.3 en DocVQA y 85.5 en TextVQA, superando tanto a Gemini 1.5 Pro como a Claude 3.5 Sonnet. También destaca en Ai2D, con una puntuación de 96.3, la más alta entre todas las familias de modelos.
Cabe señalar que Molmo-72B sobresale en tareas de anclaje visual, alcanzando las mejores puntuaciones en RealWorldQA, lo que lo convierte en un candidato prometedor para aplicaciones de robótica y razonamiento multimodal complejo.
Acceso Abierto y Desarrollos Futuros
Ai2 ha hecho que estos modelos y conjuntos de datos sean accesibles de forma gratuita en su espacio de Hugging Face, asegurando compatibilidad con marcos de IA populares como Transformers. Esta iniciativa es parte de la misión de Ai2 de promover la innovación y la colaboración dentro de la comunidad de IA.
En los próximos meses, Ai2 planea lanzar modelos adicionales, códigos de entrenamiento y un informe técnico ampliado, mejorando aún más los recursos disponibles para los investigadores. Para aquellos interesados en las capacidades de Molmo, ya está disponible una demostración pública y puntos de control del modelo en la página oficial de Molmo.