Alibaba Lança o Qwen2-VL: Novo Modelo de IA Capaz de Analisar Vídeos com Mais de 20 Minutos de Duração

Home Notícias de IA Alibaba Lança o Qwen2-VL: Novo Modelo de IA Capaz de Analisar Vídeos com Mais de 20 Minutos de Duração

Alibaba Cloud, a divisão de serviços em nuvem do gigante do comércio eletrônico chinês, lançou o Qwen2-VL, seu mais recente modelo de visão-linguagem, projetado para aprimorar a compreensão visual, a análise de vídeos e o processamento multilíngue de texto-imagem.

O Qwen2-VL supera modelos líderes como Llama 3.1 da Meta, GPT-4o da OpenAI, Claude 3 Haiku da Anthropic e Gemini-1.5 Flash do Google, conforme testes de referência de terceiros. Você pode experimentá-lo hospedado na Hugging Face.

Idiomas Suportados: inglês, chinês, a maioria das línguas europeias, japonês, coreano, árabe e vietnamita.

Análise Visual e de Vídeo Avançada

A Alibaba pretende redefinir a interação da IA com dados visuais por meio do Qwen-2VL. Este modelo pode analisar caligrafia em vários idiomas, identificar e descrever objetos em imagens, além de processar vídeos ao vivo em quase tempo real, tornando-se adequado para suporte técnico e tarefas operacionais em tempo real.

Em um post no blog do GitHub, a equipe de pesquisa Qwen destacou: “Além de imagens estáticas, o Qwen2-VL estende suas capacidades para a análise de conteúdo em vídeo. Ele pode resumir vídeos, responder perguntas relacionadas e manter conversas em tempo real, funcionando como um assistente pessoal para os usuários, fornecendo insights diretamente do conteúdo em vídeo.”

O Qwen-2VL é capaz de analisar vídeos com mais de 20 minutos e responder a perguntas sobre seu conteúdo.

Exemplo de Resumo de Vídeo:

Em uma demonstração, o Qwen2-VL resumiu com eficácia um vídeo com astronautas discutindo sua missão dentro de uma estação espacial, oferecendo aos espectadores uma visão envolvente sobre a exploração espacial.

Variantes do Modelo e Opções de Código Aberto

O Qwen2-VL vem em três variantes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B. As versões 7B e 2B são de código aberto sob a licença Apache 2.0, tornando-se opções atraentes para empresas. Essas variantes são projetadas para desempenho competitivo em uma escala acessível e estão disponíveis em plataformas como Hugging Face e ModelScope.

Entretanto, o maior modelo de 72B estará disponível posteriormente sob uma licença e API separadas da Alibaba.

Funcionalidade e Integração

A série Qwen2-VL é baseada na família de modelos Qwen, apresentando avanços como:

- Integração em dispositivos como celulares e robôs para operações automatizadas com base em entradas visuais e de texto.

- Capacidades de chamada de função que permitem interação com software e aplicativos de terceiros, compreendendo informações críticas como status de voos e rastreamento de pacotes.

Essas características posicionam o Qwen2-VL como uma ferramenta poderosa para tarefas que exigem raciocínio complexo e tomada de decisão.

Inovações Arquitetônicas

O Qwen2-VL incorpora várias inovações arquitetônicas para aprimorar o processamento de dados visuais. O suporte a Resolução Dinâmica Ingênua permite lidar com imagens de diferentes resoluções, garantindo precisão na interpretação visual. O sistema de Embedding Posicional Rotativo Multimodal (M-ROPE) permite que o modelo integre informações posicionais entre texto, imagens e vídeos de forma eficaz.

Desenvolvimentos Futuros da Equipe Qwen

A Equipe Qwen está comprometida em avançar os modelos de visão-linguagem integrando modalidades adicionais e aprimorando as aplicações dos modelos. Os modelos Qwen2-VL já estão disponíveis para desenvolvedores e pesquisadores que desejam explorar o potencial dessas ferramentas inovadoras.

Meta Acende a Revolução da IA Open-Source com Aumento de 10x nas Downloads do Llama em Relação ao Ano Anterior

O Companheiro Incansável: Como a IA Agente Está Revolucionando as Equipes de Desenvolvimento de Software

Most people like

Pikzels

97K

Obtenha miniaturas ilimitadas por uma baixa mensalidade! Aproveite possibilidades criativas sem comprometer seu orçamento.

miniaturas AI Graphic Design

Alter

35.2K

Descubra um treino personalizado em casa, adaptado aos seus genes e biometria únicos. Desperte seu potencial com um programa de exercícios feito sob medida para você, otimizando seus resultados e aprimorando sua jornada de bem-estar.

fitness em casa Fitness

Suno AI Music Prompt Generator

102.3K

Está procurando acender sua inspiração musical? Descubra o poder de transformar suas ideias em convites musicais cativantes. Ao explorar seus pensamentos, você pode facilmente criar temas e melodias únicas que ressoam com você. Seja você um músico iniciante ou um compositor experiente, esta ferramenta ajudará a canalizar sua imaginação em belas músicas. Comece a criar hoje!

IA AI Music Generator

ContentStudio

333.9K

No cenário digital atual, uma gestão eficaz das redes sociais é fundamental para empresas que buscam aumentar sua presença online. Uma plataforma unificada de gestão de redes sociais capacita as marcas a consolidar suas atividades, garantindo um engajamento fluido com seu público em diversos canais. Ao aproveitar ferramentas e insights avançados, as empresas podem otimizar suas estratégias, melhorar a comunicação e obter resultados mensuráveis. Descubra como essa plataforma pode transformar sua abordagem nas redes sociais e elevar a visibilidade da sua marca em um ambiente competitivo.

gerenciamento de mídias sociais AI Content Generator

Find AI tools in YBX