Apple presenta MM1.5: un modelo de IA multimodal de $30 mil millones con funciones de reconocimiento de imágenes y comprensión del lenguaje natural.

Apple ha lanzado recientemente su último modelo de IA multimodal, MM1.5, con una escala de parámetros de 30 mil millones. Esta nueva versión se basa en el modelo MM1 anterior, con mejoras significativas.

MM1.5 se adhiere a los principios de entrenamiento basados en datos, analizando de cerca cómo los datos mixtos impactan el rendimiento del modelo en varios ciclos de entrenamiento. La documentación del nuevo modelo ya está disponible en la plataforma Hugging Face y ofrece diversas configuraciones de parámetros que van de 1 mil millones a 30 mil millones, destacando sus capacidades en reconocimiento de imágenes y razonamiento en lenguaje natural.

En esta actualización, el equipo de investigación de Apple ha optimizado la estrategia de mezcla de datos, lo que ha llevado a mejoras sustanciales en el rendimiento del modelo en áreas como la comprensión de imágenes con múltiples textos, referencias visuales y localización, así como el razonamiento a partir de múltiples imágenes. Estudios indican que, durante la fase de preentrenamiento del MM1.5, la incorporación de datos OCR de alta calidad y descripciones de imágenes sintéticas mejoró considerablemente la capacidad del modelo para entender imágenes con mucho texto. Además, en la fase de ajuste fino supervisado, el equipo analizó los efectos de diversos tipos de datos en el rendimiento del modelo, optimizando las configuraciones de datos para la sintonización de instrucciones visuales, lo que permite a modelos más pequeños (como los de 1 mil millones y 3 mil millones de parámetros) lograr resultados notables.

Además, Apple ha presentado modelos especializados como MM1.5-Video para la comprensión de videos y MM1.5-UI para la comprensión de interfaces de usuario (UI) en dispositivos móviles. El modelo MM1.5-UI se convertirá en la piedra angular de la IA de Apple para el ecosistema de iOS, manejando de manera eficiente tareas de referencia visual y localización, e incluso resumiendo funciones de pantalla o interactuando a través de conversaciones con los usuarios.

A pesar del rendimiento excepcional del modelo MM1.5 en múltiples benchmarks, el equipo de Apple está comprometido a seguir mejorando las capacidades de la IA integrando datos de texto, imagen e interacción del usuario para desarrollar arquitecturas más complejas. Este esfuerzo continuo busca fortalecer la efectividad de la IA "de marca Apple", haciéndola más poderosa en la comprensión de la UI de dispositivos móviles.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles