Alibaba Lança o Qwen2-VL: Novo Modelo de IA Capaz de Analisar Vídeos com Mais de 20 Minutos de Duração

Home Notícias de IA Alibaba Lança o Qwen2-VL: Novo Modelo de IA Capaz de Analisar Vídeos com Mais de 20 Minutos de Duração

Alibaba Cloud, a divisão de serviços em nuvem do gigante do comércio eletrônico chinês, lançou o Qwen2-VL, seu mais recente modelo de visão-linguagem, projetado para aprimorar a compreensão visual, a análise de vídeos e o processamento multilíngue de texto-imagem.

O Qwen2-VL supera modelos líderes como Llama 3.1 da Meta, GPT-4o da OpenAI, Claude 3 Haiku da Anthropic e Gemini-1.5 Flash do Google, conforme testes de referência de terceiros. Você pode experimentá-lo hospedado na Hugging Face.

Idiomas Suportados: inglês, chinês, a maioria das línguas europeias, japonês, coreano, árabe e vietnamita.

Análise Visual e de Vídeo Avançada

A Alibaba pretende redefinir a interação da IA com dados visuais por meio do Qwen-2VL. Este modelo pode analisar caligrafia em vários idiomas, identificar e descrever objetos em imagens, além de processar vídeos ao vivo em quase tempo real, tornando-se adequado para suporte técnico e tarefas operacionais em tempo real.

Em um post no blog do GitHub, a equipe de pesquisa Qwen destacou: “Além de imagens estáticas, o Qwen2-VL estende suas capacidades para a análise de conteúdo em vídeo. Ele pode resumir vídeos, responder perguntas relacionadas e manter conversas em tempo real, funcionando como um assistente pessoal para os usuários, fornecendo insights diretamente do conteúdo em vídeo.”

O Qwen-2VL é capaz de analisar vídeos com mais de 20 minutos e responder a perguntas sobre seu conteúdo.

Exemplo de Resumo de Vídeo:

Em uma demonstração, o Qwen2-VL resumiu com eficácia um vídeo com astronautas discutindo sua missão dentro de uma estação espacial, oferecendo aos espectadores uma visão envolvente sobre a exploração espacial.

Variantes do Modelo e Opções de Código Aberto

O Qwen2-VL vem em três variantes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B. As versões 7B e 2B são de código aberto sob a licença Apache 2.0, tornando-se opções atraentes para empresas. Essas variantes são projetadas para desempenho competitivo em uma escala acessível e estão disponíveis em plataformas como Hugging Face e ModelScope.

Entretanto, o maior modelo de 72B estará disponível posteriormente sob uma licença e API separadas da Alibaba.

Funcionalidade e Integração

A série Qwen2-VL é baseada na família de modelos Qwen, apresentando avanços como:

- Integração em dispositivos como celulares e robôs para operações automatizadas com base em entradas visuais e de texto.

- Capacidades de chamada de função que permitem interação com software e aplicativos de terceiros, compreendendo informações críticas como status de voos e rastreamento de pacotes.

Essas características posicionam o Qwen2-VL como uma ferramenta poderosa para tarefas que exigem raciocínio complexo e tomada de decisão.

Inovações Arquitetônicas

O Qwen2-VL incorpora várias inovações arquitetônicas para aprimorar o processamento de dados visuais. O suporte a Resolução Dinâmica Ingênua permite lidar com imagens de diferentes resoluções, garantindo precisão na interpretação visual. O sistema de Embedding Posicional Rotativo Multimodal (M-ROPE) permite que o modelo integre informações posicionais entre texto, imagens e vídeos de forma eficaz.

Desenvolvimentos Futuros da Equipe Qwen

A Equipe Qwen está comprometida em avançar os modelos de visão-linguagem integrando modalidades adicionais e aprimorando as aplicações dos modelos. Os modelos Qwen2-VL já estão disponíveis para desenvolvedores e pesquisadores que desejam explorar o potencial dessas ferramentas inovadoras.

Meta Acende a Revolução da IA Open-Source com Aumento de 10x nas Downloads do Llama em Relação ao Ano Anterior

O Companheiro Incansável: Como a IA Agente Está Revolucionando as Equipes de Desenvolvimento de Software

Most people like

Alphazria

52.8K

Explore o mundo do conteúdo adulto gerado por IA, projetado exclusivamente para o público maduro. Mergulhe em experiências inovadoras e envolventes, adaptadas às preferências do adulto.

Imagens geradas por IA NSFW

Ludo.ai

65.7K

Ludo.ai capacita estúdios de jogos a desenvolver títulos de sucesso, oferecendo assistência em pesquisa e design impulsionada por IA, adaptada para a indústria de jogos.

Assistente com inteligência artificial Game

TIKTOKEMOJI.COM

Desperte seu potencial criativo ao criar emojis exclusivos para o TikTok! Neste guia, vamos explorar como elaborar emojis expressivos que elevam seu conteúdo e envolvem seu público. Seja para um toque pessoal ou para a identidade da marca, emojis únicos podem fazer suas postagens no TikTok se destacarem. Vamos mergulhar e descobrir a arte de criar emojis para o sucesso nas redes sociais!

TikTok AI Tiktok Assistant

Text2SQL.AI

42.9K

Apresentamos uma plataforma de IA amigável, projetada para transformar facilmente instruções em inglês em consultas SQL. Otimize sua gestão de dados com esta ferramenta intuitiva que conecta a linguagem natural às interações com bancos de dados.

Geração de SQL com inteligência artificial AI Code Assistant

Find AI tools in YBX