Alibaba presenta Qwen2-VL: el nuevo modelo de IA capaz de analizar videos de más de 20 minutos.

Home Noticias de IA Alibaba presenta Qwen2-VL: el nuevo modelo de IA capaz de analizar videos de más de 20 minutos.

Alibaba Cloud, la división de servicios en la nube del gigante chino del comercio electrónico, ha presentado Qwen2-VL, su último modelo de visión-lenguaje diseñado para mejorar la comprensión visual, el análisis de video y el procesamiento de texto-imagen en varios idiomas.

Qwen2-VL supera a modelos líderes como Llama 3.1 de Meta, GPT-4o de OpenAI, Claude 3 Haiku de Anthropic y Gemini-1.5 Flash de Google, según pruebas de referencia de terceros. Puedes probarlo en Hugging Face.

Idiomas Soportados: Inglés, chino, la mayoría de los idiomas europeos, japonés, coreano, árabe y vietnamita.

Análisis Avanzado de Imágenes y Videos

Alibaba busca redefinir la interacción de la IA con datos visuales a través de Qwen2-VL. Este modelo puede analizar escritura a mano en múltiples idiomas, identificar y describir objetos en imágenes, así como procesar video en tiempo casi real, lo que lo hace ideal para soporte técnico y tareas operativas en vivo.

En un blog de GitHub, el equipo de investigación Qwen destacó: "Más allá de las imágenes estáticas, Qwen2-VL amplía sus capacidades al análisis de contenido en video. Puede resumir videos, responder preguntas relacionadas y mantener conversaciones en tiempo real, permitiendo que funcione como un asistente personal para los usuarios, proporcionando información directamente del contenido visual."

Cabe señalar que Qwen2-VL puede analizar videos de más de 20 minutos y responder preguntas sobre su contenido.

Ejemplo de Resumen de Video:

En una demostración, Qwen2-VL resumió efectivamente un video en el que astronautas hablaban sobre su misión dentro de una estación espacial, brindando a los espectadores una fascinante visión de la exploración espacial.

Variedades del Modelo y Opciones de Código Abierto

Qwen2-VL se presenta en tres variantes: Qwen2-VL-72B (72 mil millones de parámetros), Qwen2-VL-7B y Qwen2-VL-2B. Las versiones 7B y 2B son de código abierto bajo la licencia Apache 2.0, lo que las convierte en opciones atractivas para empresas. Estas variantes están diseñadas para un rendimiento competitivo a una escala accesible y están disponibles en plataformas como Hugging Face y ModelScope.

Sin embargo, el modelo más grande de 72B estará disponible más adelante bajo una licencia y API separadas de Alibaba.

Funcionalidad e Integración

La serie Qwen2-VL se basa en la familia de modelos Qwen, con avances como:

- Integración en dispositivos como teléfonos móviles y robots para operaciones automatizadas basadas en entradas visuales y de texto.

- Capacidades de llamada a funciones que permiten la interacción con software y aplicaciones de terceros, comprendiendo información crítica como estados de vuelo y seguimiento de paquetes.

Estas características posicionan a Qwen2-VL como una herramienta poderosa para tareas que requieren razonamiento complejo y toma de decisiones.

Innovaciones Arquitectónicas

Qwen2-VL incorpora varias innovaciones arquitectónicas para mejorar el procesamiento de datos visuales. El soporte de Resolución Dinámica Naive permite manejar imágenes de diferentes resoluciones, asegurando precisión en la interpretación visual. El sistema de Embedding de Posición Rotativa Multimodal (M-ROPE) permite al modelo integrar información posicional en texto, imágenes y videos de manera efectiva.

Desarrollos Futuros del Equipo Qwen

El equipo Qwen está comprometido con el avance de los modelos de visión-lenguaje, integrando modalidades adicionales y mejorando las aplicaciones de los modelos. Los modelos Qwen2-VL ya están disponibles para desarrolladores e investigadores deseosos de explorar el potencial de estas herramientas innovadoras.

Meta enciende la revolución de la IA de código abierto con un aumento del 10x en las descargas de Llama interanuales.

El Compañero Incansable: Cómo la IA Agente Está Revolucionando los Equipos de Desarrollo de Software.

Most people like

cutlabs

68.1K

En una era donde el contenido de videojuegos es el rey, los streamers están en constante búsqueda de formas de mejorar sus transmisiones y conectar con su audiencia. Un editor de video impulsado por IA, diseñado específicamente para streamers de videojuegos, ofrece herramientas innovadoras que optimizan el proceso de edición, mejoran la calidad del contenido y elevan la participación de los espectadores. Con características avanzadas adaptadas al mundo gamer, esta tecnología no solo ahorra tiempo, sino que también potencia la creatividad, permitiendo a los streamers concentrarse en lo que más les apasiona: jugar. ¡Descubre cómo la edición de video impulsada por IA puede transformar tu experiencia de streaming!

Editor de video con IA Captions or Subtitle

Supermeme.ai

193.5K

Transforma texto en memes atractivos sin esfuerzo con IA: ¡no se necesitan habilidades de edición de imágenes!

Generador de memes de IA AI Content Generator

Adversa AI

8.1K

Explora soluciones de seguridad en IA de vanguardia diseñadas para mejorar la confiabilidad y seguridad de los sistemas de inteligencia artificial. Al priorizar el desarrollo seguro de la IA, las organizaciones pueden mitigar eficazmente los riesgos mientras aprovechan el potencial de la inteligencia artificial.

Seguridad de IA AI Detector

TreeMind

64.6K

Descubre el poder del software de mapas mentales basado en IA, diseñado para ayudarte a visualizar tus pensamientos e ideas de manera efectiva. Esta herramienta innovadora potencia la creatividad, aumenta la productividad y agiliza tu proceso de lluvia de ideas, facilitando la organización y desarrollo de tus conceptos. Explora el impacto transformador de la IA en los mapas mentales y desbloquea tu potencial hoy mismo.

mapeo mental AI Mind Mapping

Find AI tools in YBX