À medida que nos aproximamos do primeiro aniversário do lançamento do ChatGPT, avanços significativos foram feitos para aprimorar esse poderoso modelo de linguagem. A OpenAI integrou novos recursos, incluindo capacidades de geração de imagens via DALL-E 3 e acesso a informações em tempo real através do Bing. No entanto, é a introdução das funcionalidades de voz e imagem que marca uma atualização transformadora, redefinindo as interações dos usuários.
No centro dessas inovações está o GPT-4V, também conhecido como GPT-4 Vision. Este modelo multimodal de ponta permite que os usuários interajam com texto e imagens de forma integrada. Em testes realizados por pesquisadores da Microsoft—principal parceira e investidora da OpenAI—o GPT-4V demonstrou habilidades extraordinárias, algumas das quais nunca tinham sido testadas antes. As descobertas, apresentadas no estudo "The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)," destacam o extenso potencial do modelo para processar entradas complexas e interligadas, como uma imagem de um cardápio ao lado de seu texto.
O que é o GPT-4V?
O GPT-4V(ision) é um modelo de IA multimodal inovador desenvolvido pela OpenAI. Ele permite que os usuários façam perguntas sobre imagens carregadas por meio de uma funcionalidade conhecida como visual question answering (VQA). A partir de outubro, os assinantes do ChatGPT Plus, com preço de $20 por mês, ou da versão Enterprise poderão acessar as capacidades do GPT-4V em plataformas desktop e iOS.
Principais Capacidades do GPT-4V
- Raciocínio Visual: O modelo compreende relações visuais complexas e detalhes contextuais, permitindo que ele responda a perguntas com base em imagens, em vez de apenas identificar objetos.
- Seguir Instruções: Os usuários podem fornecer comandos textuais, permitindo que o modelo execute novas tarefas de visão e linguagem com facilidade.
- Aprendizado em Contexto: O GPT-4V demonstra robustez em aprendizado com poucos exemplos, adaptando-se a novas tarefas rapidamente.
- Referência Visual: O modelo reconhece pistas visuais como setas e caixas, possibilitando a seguir instruções com precisão.
- Legendas Detalhadas: O GPT-4V pode produzir descrições detalhadas em múltiplas frases que expressam relacionamentos complexos entre conteúdos.
- Contagem: O modelo consegue contar objetos em uma imagem de forma precisa, conforme as consultas dos usuários.
- Programação: Ele demonstrou a capacidade de gerar código—como a análise de JSON—com base em entradas visuais.
Em comparação com modelos multimodais anteriores, o GPT-4V apresenta uma melhoria notável na compreensão de visão e linguagem, ressaltando seu potencial transformador em aplicações de IA.
Limitações do GPT-4V
Apesar de suas impressionantes capacidades, o GPT-4V não é isento de desvantagens. Usuários que esperam utilizá-lo para tarefas altamente complexas podem enfrentar desafios, especialmente ao lidarem com prompts únicos ou especificamente elaborados. Seu desempenho também é limitado quando aplicado a amostras novas ou desconhecidas, com certos cenários complexos exigindo prompts personalizados para funcionar efetivamente.
A Emergência de Modelos Multimodais Grandes (LMMs)
O surgimento da IA multimodal representa uma evolução crucial na tecnologia. Modelos de geração de texto agora são aprimorados pela capacidade de processar imagens, facilitando consultas e interações dos usuários. Essa evolução aproxima a OpenAI da realização da inteligência artificial geral (AGI), um marco há muito desejado na comunidade de IA. A organização está comprometida em criar uma AGI que seja não apenas poderosa, mas também segura para a sociedade, levando os governos a estabelecer regulamentações para supervisionar seu desenvolvimento.
A OpenAI não está sozinha nesse esforço; outras gigantes da tecnologia, como a Meta, estão investindo em pesquisas de IA multimodal. Sob a orientação do cientista ganhador do Prêmio Turing, Yann LeCun, a Meta está desenvolvendo ativamente modelos como SeamlessM4T, AudioCraft e Voicebox para criar um metaverso inclusivo. Além disso, o recém-criado Frontier Model Forum—composto pelos principais desenvolvedores de IA como OpenAI, Microsoft, Google e Anthropic—está dedicado a avançar modelos multimodais da próxima geração, sublinhando a crescente importância desse campo na pesquisa em IA.
Com esses desenvolvimentos, o panorama da inteligência artificial está evoluindo rapidamente, mostrando um enorme potencial para aplicações criativas e experiências aprimoradas para os usuários.