Alibaba Cloud, la división de servicios en la nube del gigante chino del comercio electrónico, ha presentado Qwen2-VL, su último modelo de visión-lenguaje diseñado para mejorar la comprensión visual, el análisis de video y el procesamiento de texto-imagen en varios idiomas.
Qwen2-VL supera a modelos líderes como Llama 3.1 de Meta, GPT-4o de OpenAI, Claude 3 Haiku de Anthropic y Gemini-1.5 Flash de Google, según pruebas de referencia de terceros. Puedes probarlo en Hugging Face.
Idiomas Soportados: Inglés, chino, la mayoría de los idiomas europeos, japonés, coreano, árabe y vietnamita.
Análisis Avanzado de Imágenes y Videos
Alibaba busca redefinir la interacción de la IA con datos visuales a través de Qwen2-VL. Este modelo puede analizar escritura a mano en múltiples idiomas, identificar y describir objetos en imágenes, así como procesar video en tiempo casi real, lo que lo hace ideal para soporte técnico y tareas operativas en vivo.
En un blog de GitHub, el equipo de investigación Qwen destacó: "Más allá de las imágenes estáticas, Qwen2-VL amplía sus capacidades al análisis de contenido en video. Puede resumir videos, responder preguntas relacionadas y mantener conversaciones en tiempo real, permitiendo que funcione como un asistente personal para los usuarios, proporcionando información directamente del contenido visual."
Cabe señalar que Qwen2-VL puede analizar videos de más de 20 minutos y responder preguntas sobre su contenido.
Ejemplo de Resumen de Video:
En una demostración, Qwen2-VL resumió efectivamente un video en el que astronautas hablaban sobre su misión dentro de una estación espacial, brindando a los espectadores una fascinante visión de la exploración espacial.
Variedades del Modelo y Opciones de Código Abierto
Qwen2-VL se presenta en tres variantes: Qwen2-VL-72B (72 mil millones de parámetros), Qwen2-VL-7B y Qwen2-VL-2B. Las versiones 7B y 2B son de código abierto bajo la licencia Apache 2.0, lo que las convierte en opciones atractivas para empresas. Estas variantes están diseñadas para un rendimiento competitivo a una escala accesible y están disponibles en plataformas como Hugging Face y ModelScope.
Sin embargo, el modelo más grande de 72B estará disponible más adelante bajo una licencia y API separadas de Alibaba.
Funcionalidad e Integración
La serie Qwen2-VL se basa en la familia de modelos Qwen, con avances como:
- Integración en dispositivos como teléfonos móviles y robots para operaciones automatizadas basadas en entradas visuales y de texto.
- Capacidades de llamada a funciones que permiten la interacción con software y aplicaciones de terceros, comprendiendo información crítica como estados de vuelo y seguimiento de paquetes.
Estas características posicionan a Qwen2-VL como una herramienta poderosa para tareas que requieren razonamiento complejo y toma de decisiones.
Innovaciones Arquitectónicas
Qwen2-VL incorpora varias innovaciones arquitectónicas para mejorar el procesamiento de datos visuales. El soporte de Resolución Dinámica Naive permite manejar imágenes de diferentes resoluciones, asegurando precisión en la interpretación visual. El sistema de Embedding de Posición Rotativa Multimodal (M-ROPE) permite al modelo integrar información posicional en texto, imágenes y videos de manera efectiva.
Desarrollos Futuros del Equipo Qwen
El equipo Qwen está comprometido con el avance de los modelos de visión-lenguaje, integrando modalidades adicionales y mejorando las aplicaciones de los modelos. Los modelos Qwen2-VL ya están disponibles para desarrolladores e investigadores deseosos de explorar el potencial de estas herramientas innovadoras.