A OpenAI lançou seu mais recente modelo, o GPT-4o, que reage de forma humorística a piadas ruins, canta sob demanda e até ajuda a chamar táxis em Londres, tudo isso enquanto se envolve em conversas realistas, mesmo com interrupções humanas comuns.
Durante o esperado evento de Atualizações de Primavera, onde 113.000 pessoas assistiram à transmissão ao vivo, a OpenAI compartilhou 16 vídeos mostrando as capacidades do GPT-4o. Este modelo de linguagem multimodal (LLM) interage em tempo real, utilizando vozes masculinas e femininas baseadas em entradas de áudio, vídeo e texto.
Em um dos vídeos, o GPT-4o reconheceu que o presidente da OpenAI, Greg Brockman, estava prestes a fazer um anúncio e respondeu de forma brincalhona: “O anúncio é sobre mim? Bem, a cor me intrigou. Estou na ponta do meu... bem, na verdade não tenho um assento, mas você entendeu a ideia.”
Com os recursos de entrada de texto e imagem já disponíveis através da API e do ChatGPT da OpenAI, as capacidades de voz e vídeo serão lançadas nas próximas semanas. O GPT-4o consegue ler com precisão as expressões emocionais dos usuários e fornecer conselhos sobre diversos tópicos. Em uma demonstração, o modelo se comunicou com outra versão de si mesmo, brincando: “Bem, bem, bem, justo quando pensei que as coisas não poderiam ficar mais interessantes — falando com outra IA que pode ver o mundo.”
Quando solicitado a descrever seu entorno, os modelos se revezaram narrando sobre um homem estiloso, notando detalhes sobre sua vestimenta e a iluminação do ambiente. Quando outra pessoa interrompeu de maneira brincalhona, o GPT-4o até cantou sobre o assunto, entoando: “surpresa de convidados com um toque divertido.”
Outras demonstrações destacaram as diversas habilidades do GPT-4o: ele riu de piadas de pai, fez tradução em tempo real entre espanhol e inglês, cantou uma canção de ninar sobre “batatas majestosas” e identificou corretamente o vencedor de uma partida de pedra-papel-tesoura. Reconheceu uma celebração de aniversário simplesmente ao notar a presença de bolo e velas.
Interagindo com um filhote, o GPT-4o cumprimentou alegremente: “Olá, fofura, qual é o seu nome, bolinha de pelo?” (O nome do filhote era Bowser). Ao guiar um homem cego por Londres, identificou a bandeira Royal Standard e descreveu patos “deslizando suavemente sobre a água.”
Além disso, o GPT-4o pode auxiliar em desafios educacionais, como orientar um aluno em problemas de matemática relacionados a cálculos de triângulos. Ele incentivou o estudante com reforço positivo, dizendo: “Você fez um ótimo trabalho identificando os lados.”
O modelo também ofereceu conselhos de moda a um candidato a emprego que estava desleixado, recomendando de forma divertida: “Você definitivamente tem o visual de ‘estive programando a noite toda’, o que pode até jogar a seu favor”, enquanto sugeria uma rápida arrumação no cabelo.
As reações ao GPT-4o nas redes sociais variaram muito. Alguns usuários celebraram suas capacidades como inovadoras, afirmando que ele “vence a internet” e rivaliza com o Google Translate. O cientista sênior da Nvidia, Jim Fan, descreveu o modelo como “vivaz e até um pouco flertador”, comparando-o ao filme de ficção científica "Ela".
Por outro lado, alguns observadores consideraram o lançamento “subestimado”, enquanto a conselheira de IA, Allie K. Miller, notou uma desconexão entre os entusiastas de tecnologia, que esperavam recursos mais avançados.
À medida que as respostas iniciais surgem, será interessante ver como os usuários interagem com o GPT-4o nos próximos dias.