Alibaba Lança o Qwen2-VL: Novo Modelo de IA Capaz de Analisar Vídeos com Mais de 20 Minutos de Duração

Alibaba Cloud, a divisão de serviços em nuvem do gigante do comércio eletrônico chinês, lançou o Qwen2-VL, seu mais recente modelo de visão-linguagem, projetado para aprimorar a compreensão visual, a análise de vídeos e o processamento multilíngue de texto-imagem.

O Qwen2-VL supera modelos líderes como Llama 3.1 da Meta, GPT-4o da OpenAI, Claude 3 Haiku da Anthropic e Gemini-1.5 Flash do Google, conforme testes de referência de terceiros. Você pode experimentá-lo hospedado na Hugging Face.

Idiomas Suportados: inglês, chinês, a maioria das línguas europeias, japonês, coreano, árabe e vietnamita.

Análise Visual e de Vídeo Avançada

A Alibaba pretende redefinir a interação da IA com dados visuais por meio do Qwen-2VL. Este modelo pode analisar caligrafia em vários idiomas, identificar e descrever objetos em imagens, além de processar vídeos ao vivo em quase tempo real, tornando-se adequado para suporte técnico e tarefas operacionais em tempo real.

Em um post no blog do GitHub, a equipe de pesquisa Qwen destacou: “Além de imagens estáticas, o Qwen2-VL estende suas capacidades para a análise de conteúdo em vídeo. Ele pode resumir vídeos, responder perguntas relacionadas e manter conversas em tempo real, funcionando como um assistente pessoal para os usuários, fornecendo insights diretamente do conteúdo em vídeo.”

O Qwen-2VL é capaz de analisar vídeos com mais de 20 minutos e responder a perguntas sobre seu conteúdo.

Exemplo de Resumo de Vídeo:

Em uma demonstração, o Qwen2-VL resumiu com eficácia um vídeo com astronautas discutindo sua missão dentro de uma estação espacial, oferecendo aos espectadores uma visão envolvente sobre a exploração espacial.

Variantes do Modelo e Opções de Código Aberto

O Qwen2-VL vem em três variantes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B. As versões 7B e 2B são de código aberto sob a licença Apache 2.0, tornando-se opções atraentes para empresas. Essas variantes são projetadas para desempenho competitivo em uma escala acessível e estão disponíveis em plataformas como Hugging Face e ModelScope.

Entretanto, o maior modelo de 72B estará disponível posteriormente sob uma licença e API separadas da Alibaba.

Funcionalidade e Integração

A série Qwen2-VL é baseada na família de modelos Qwen, apresentando avanços como:

- Integração em dispositivos como celulares e robôs para operações automatizadas com base em entradas visuais e de texto.

- Capacidades de chamada de função que permitem interação com software e aplicativos de terceiros, compreendendo informações críticas como status de voos e rastreamento de pacotes.

Essas características posicionam o Qwen2-VL como uma ferramenta poderosa para tarefas que exigem raciocínio complexo e tomada de decisão.

Inovações Arquitetônicas

O Qwen2-VL incorpora várias inovações arquitetônicas para aprimorar o processamento de dados visuais. O suporte a Resolução Dinâmica Ingênua permite lidar com imagens de diferentes resoluções, garantindo precisão na interpretação visual. O sistema de Embedding Posicional Rotativo Multimodal (M-ROPE) permite que o modelo integre informações posicionais entre texto, imagens e vídeos de forma eficaz.

Desenvolvimentos Futuros da Equipe Qwen

A Equipe Qwen está comprometida em avançar os modelos de visão-linguagem integrando modalidades adicionais e aprimorando as aplicações dos modelos. Os modelos Qwen2-VL já estão disponíveis para desenvolvedores e pesquisadores que desejam explorar o potencial dessas ferramentas inovadoras.

Most people like

Find AI tools in YBX