xAI de Elon Musk ha lanzado su primer modelo multimodal, Grok-1.5 Vision (Grok-1.5V), capaz de comprender no solo texto, sino también diversos datos visuales, como documentos, diagramas, gráficos, capturas de pantalla y fotografías. Este modelo estará disponible pronto para los testers iniciales y los usuarios actuales de Grok.
Según un comunicado en el blog de la empresa, “Grok-1.5V compite con modelos multimodales líderes en múltiples dominios, como razonamiento multidisciplinario y comprensión visual de diagramas científicos, documentos, capturas de pantalla e imágenes.”
Este anuncio sigue a la reciente presentación del modelo de chatbot actualizado, Grok-1.5. xAI mostró siete ejemplos que demuestran las capacidades de Grok-1.5V, incluyendo la transformación de un diagrama de flujo en código Python, la creación de un cuento a partir de un dibujo infantil, la explicación de memes, la conversión de tablas a archivos CSV y la evaluación de si las terrazas de madera necesitan reemplazo por pudrición.
xAI afirma que Grok-1.5V ha superado a modelos competidores como GPT-4V, Claude 3 Sonnet, Claude 3 Opus y Gemini Pro 1.5 en diversas evaluaciones. La empresa resalta el rendimiento superior de Grok-1.5V en el benchmark RealWorldQA, una nueva métrica desarrollada para evaluar la comprensión espacial en situaciones del mundo real.
RealWorldQA se entrenó con más de 700 imágenes, cada una emparejada con preguntas y respuestas específicas. El conjunto de datos incluye una variedad de imágenes anonimizadas, capturadas de vehículos. xAI planea liberar RealWorldQA al público bajo una licencia de Creative Commons.
A medida que xAI avanza, busca competir con OpenAI y otros líderes de la industria, tras el lanzamiento de su chatbot en noviembre de 2023. La presentación de Grok-1.5V ocurre poco después de que xAI hiciera que Grok AI sea de código abierto. Sin embargo, la empresa ha enfrentado controversias, incluidas alegaciones de que el chatbot de Grok ofreció orientación sobre actividades ilegales.
A pesar de estos desafíos, xAI se mantiene comprometida con el desarrollo de una “inteligencia artificial general benéfica” con la capacidad de comprender el universo. La empresa ha anunciado importantes actualizaciones en las capacidades de comprensión y generación multimodal de Grok AI en los próximos meses.