Los modelos de inteligencia artificial de código abierto Molmo de Ai2 superan a GPT-4o y Claude en métricas clave.

Home Noticias de IA Los modelos de inteligencia artificial de código abierto Molmo de Ai2 superan a GPT-4o y Claude en métricas clave.

Updated on septiembre 25 2024

El Instituto Allen para la IA (Ai2) ha lanzado oficialmente Molmo, un conjunto de modelos de IA multimodal de código abierto que superan a los competidores propietarios más destacados, incluyendo GPT-4o de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 1.5 de Google, según varios benchmarks de terceros.

Como modelos multimodales, Molmo puede analizar imágenes y archivos, de forma similar a los modelos de fundación líderes en el mercado. Ai2 destaca que Molmo utiliza "1000 veces menos datos" que sus contrapartes propietarias, gracias a innovadores métodos de entrenamiento detallados en un nuevo informe técnico publicado por la compañía fundada por Paul Allen, liderada por Ali Farhadi.

Ai2 también compartió un video de demostración en YouTube que muestra cómo Molmo funciona en smartphones para analizar escenas en vivo de manera eficiente. Los usuarios solo necesitan tomar una foto para un procesamiento inmediato, con ejemplos como contar personas, identificar elementos veganos en el menú, interpretar folletos, distinguir bandas de música electrónica y convertir notas manuscritas de pizarras en tablas estructuradas.

Este lanzamiento refleja el compromiso de Ai2 con la investigación abierta, proporcionando modelos de alto rendimiento, junto con pesos y datos accesibles, para que la comunidad y las empresas que buscan soluciones personalizables puedan beneficiarse.

Molmo sigue a la reciente introducción de Ai2 de OLMoE, un modelo rentable que utiliza una arquitectura de "mezcla de expertos".

Variantes y Rendimiento del Modelo

Molmo consta de cuatro modelos principales con diferentes tamaños de parámetros y capacidades:

- Molmo-72B: El modelo insignia con 72 mil millones de parámetros, basado en Qwen2-72B de Alibaba Cloud.

- Molmo-7B-D: Un modelo de demostración derivado de Qwen2-7B de Alibaba.

- Molmo-7B-O: Basado en OLMo-7B de Ai2.

- MolmoE-1B: Un modelo enfocado en la eficiencia, que casi iguala el rendimiento de GPT-4V en benchmarks académicos y preferencias de usuarios.

Estos modelos demuestran capacidades impresionantes en varios benchmarks de terceros, superando consistentemente a muchas alternativas propietarias. Todos los modelos están disponibles bajo licencias permisivas Apache 2.0, permitiendo una amplia investigación y uso comercial.

Molmo-72B destaca en evaluaciones académicas, alcanzando las puntuaciones más altas en 11 benchmarks clave y ocupando el segundo lugar en preferencias de usuarios, justo detrás de GPT-4o.

Vaibhav Srivastav, defensor de desarrolladores de aprendizaje automático en Hugging Face, subrayó que Molmo establece una alternativa robusta a los sistemas cerrados, elevando el estándar para la IA multimodal abierta. Además, Ted Xiao, investigador de robótica en Google DeepMind, elogió la inclusión de datos de señalización en Molmo, un avance vital para el anclaje visual en robótica, mejorando la interacción con entornos físicos.

Arquitectura Avanzada y Entrenamiento

La arquitectura de Molmo está diseñada para una eficiencia y rendimiento óptimos. Cada modelo utiliza el modelo ViT-L/14 336px CLIP de OpenAI como codificador visual, transformando imágenes a múltiples escalas en tokens visuales. Estos tokens se procesan a través de un conector de perceptrón multicapa (MLP) antes de integrarse en el modelo de lenguaje.

El protocolo de entrenamiento consta de dos etapas cruciales:

- Pre-entrenamiento Multimodal: Los modelos se entrenan para generar descripciones de imágenes a partir de descripciones detalladas proporcionadas por anotadores humanos, utilizando un conjunto de datos de alta calidad conocido como PixMo.

- Ajuste Fino Supervisado: Los modelos se ajustan en un conjunto de datos diverso que incluye benchmarks académicos y conjuntos de datos recientemente desarrollados, equipándolos para tareas complejas como lectura de documentos y razonamiento visual.

A diferencia de muchos modelos contemporáneos, Molmo no depende del aprendizaje por refuerzo mediante retroalimentación humana (RLHF), sino que utiliza un pipeline de entrenamiento calibrado que actualiza todos los parámetros en función de los estados de pre-entrenamiento.

Rendimiento en Benchmarks

Los modelos Molmo muestran resultados sobresalientes en diferentes benchmarks, superando notablemente a los modelos propietarios. Por ejemplo, Molmo-72B obtiene una puntuación de 96.3 en DocVQA y 85.5 en TextVQA, superando tanto a Gemini 1.5 Pro como a Claude 3.5 Sonnet. También destaca en Ai2D, con una puntuación de 96.3, la más alta entre todas las familias de modelos.

Cabe señalar que Molmo-72B sobresale en tareas de anclaje visual, alcanzando las mejores puntuaciones en RealWorldQA, lo que lo convierte en un candidato prometedor para aplicaciones de robótica y razonamiento multimodal complejo.

Acceso Abierto y Desarrollos Futuros

Ai2 ha hecho que estos modelos y conjuntos de datos sean accesibles de forma gratuita en su espacio de Hugging Face, asegurando compatibilidad con marcos de IA populares como Transformers. Esta iniciativa es parte de la misión de Ai2 de promover la innovación y la colaboración dentro de la comunidad de IA.

En los próximos meses, Ai2 planea lanzar modelos adicionales, códigos de entrenamiento y un informe técnico ampliado, mejorando aún más los recursos disponibles para los investigadores. Para aquellos interesados en las capacidades de Molmo, ya está disponible una demostración pública y puntos de control del modelo en la página oficial de Molmo.

Gaxos Presenta Gaxos Labs: Herramientas de Desarrollo de IA para Desarrolladores de Juegos

Cambios en la Dirección de OpenAI: La CTO Mira Murati Deja la Empresa

Most people like

eesel.ai

13.6K

eesel.ai es una plataforma innovadora que integra sin esfuerzo el conocimiento con ChatGPT, creando un poderoso oráculo de preguntas y respuestas. Con eesel.ai, los usuarios pueden acceder fácilmente a información precisa y perspectivas, mejorando su experiencia de aprendizaje y toma de decisiones.

ChatGPT AI Chatbot

Face26

203.7K

Mejora tus fotos sin esfuerzo con el potenciador de fotos gratuito de Face26. Mejora la calidad de la imagen, agudiza los detalles y restaura la vitalidad de tus imágenes en solo unos clics.

mejorador de fotos AI Photo Enhancer

AcademyOcean

259.9K

Desbloquea el Potencial de la Tecnología AI para Crear Cursos Atractivos En el panorama digital actual, incorporar la tecnología de IA en el diseño de cursos está revolucionando la forma en que educamos. Al aprovechar el poder de la inteligencia artificial, los educadores pueden crear experiencias de aprendizaje personalizadas, interactivas y eficientes que se adaptan a las necesidades únicas de cada estudiante. Este enfoque innovador no solo mejora el compromiso, sino que también agiliza el desarrollo de cursos. Descubre cómo puedes aprovechar las herramientas de IA para crear cursos dinámicos que cautiven a los alumnos y eleven tu estrategia docente.

IA AI Education Assistant

Kids ChatGPT

Presentamos un cautivador chatbot diseñado específicamente para niños, que combina educación, entretenimiento e inspiración a través de conversaciones interactivas.

Otro AI Chatbot

Find AI tools in YBX