Hoje, no evento de Atualizações de Primavera da OpenAI, a Diretora de Tecnologia Mira Murati apresentou o GPT-4o (GPT-4 Omni), um inovador modelo de linguagem multimodal (LLM) que estará disponível para usuários gratuitos do ChatGPT nas próximas semanas. Além disso, um novo aplicativo desktop do ChatGPT para macOS (com suporte para Windows a ser lançado posteriormente) permitirá que os usuários acessem a plataforma além das aplicações web e mobile.
“GPT-4o raciocina através de voz, texto e visão,” explicou Murati, destacando a capacidade do modelo de aceitar e analisar vídeos em tempo real capturados pelos usuários por meio dos aplicativos do ChatGPT em smartphones, embora esse recurso ainda não esteja disponível publicamente. “Isso parece mágico, e é incrível, mas queremos desmistificá-lo e permitir que você experimente por si mesmo,” acrescentou.
O novo modelo pode responder com áudio em tempo real, detectar estados emocionais dos usuários a partir de entradas de áudio e vídeo, e ajustar seu tom de voz para expressar diversas emoções, similar ao que oferece a startup rival Hume. Durante uma demonstração, um apresentador pediu ao ChatGPT alimentado pelo GPT-4o que narrasse uma história com crescente drama, o que foi executado de forma ágil. Ele inteligentemente para de falar quando é interrompido e ouve atentamente antes de continuar.
A OpenAI compartilhou vídeos de demonstração mostrando as capacidades do GPT-4o, afirmando que ele pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos—comparável ao tempo de resposta em conversas humanas. A OpenAI explicou como o GPT-4o melhora a experiência do usuário, dizendo: “Antes do GPT-4o, o Modo Voz apresentava latências de 2,8 segundos (GPT-3.5) e 5,4 segundos (GPT-4), usando três modelos separados. Isso significava que a principal fonte de inteligência—o GPT-4—não conseguia perceber totalmente o tom, vários falantes ou sons de fundo.”
Com o GPT-4o, todas as entradas e saídas são processadas por uma única rede neural de ponta a ponta, combinando texto, visão e áudio para criar interações mais ricas. Ele pode até gerar múltiplas visões de uma imagem, que podem ser transformadas em objetos 3D. No entanto, a OpenAI não anunciou planos para abrir o código fonte do GPT-4o ou de seus modelos mais novos. Embora os usuários possam explorar as capacidades do modelo no site da OpenAI e por meio de sua API, não terão acesso aos pesos do modelo subjacente para personalização—uma área criticada pelo co-fundador Elon Musk.
A introdução do GPT-4o aprimora significativamente a experiência gratuita do ChatGPT. Anteriormente limitado ao modelo GPT-3.5 somente texto, os usuários gratuitos agora terão acesso a um modelo mais avançado com capacidades ampliadas para análise de imagens e documentos, navegação na web, análise de dados, GPTs personalizados e armazenamento de memória que retém as preferências do usuário por meio de comandos simples.
Em uma demonstração ao vivo, os apresentadores mostraram o ChatGPT alimentado pelo GPT-4o traduzindo palavras faladas em tempo real entre italiano e inglês. A OpenAI também destacou: “O ChatGPT agora suporta mais de 50 idiomas para registro, login e configurações de usuário.” Além disso, o GPT-4o se destaca na compreensão e discussão de imagens compartilhadas e pode criar personagens de arte AI consistentes, uma conquista que escapou a muitos geradores de arte AI existentes.
Inicialmente, o GPT-4o estará disponível para assinantes pagantes, com uma implementação gradual para usuários gratuitos: “Começaremos com os usuários do ChatGPT Plus e Team, com acesso a Enterprise chegando em breve. Usuários gratuitos terão limites de uso,” afirmou a OpenAI. Nas redes sociais, a OpenAI confirmou que "entrada de texto e imagem" estão sendo implementadas na API hoje, enquanto as capacidades de voz e vídeo serão lançadas nas próximas semanas. A API oferecerá o GPT-4o a metade do preço e com o dobro da velocidade do GPT-4 Turbo, com limites de chamadas aumentados para desenvolvedores terceirizados.
O CEO da OpenAI, Sam Altman, refletiu sobre a missão em evolução da empresa: “Nosso objetivo era criar IA para benefício social, mas agora parece que vamos desenvolver IA que capacita outros a inovar, beneficiando a todos.” Em seu post no blog, Altman observou: “Nossa missão principal é fornecer ferramentas de IA poderosas de forma acessível. Tenho orgulho de que oferecemos o melhor modelo global gratuitamente via ChatGPT.”
O novo aplicativo desktop do ChatGPT será lançado em etapas, começando pelo macOS e, em seguida, para Windows. Murati revelou que mais de 100 milhões de pessoas utilizam atualmente o ChatGPT, com mais de 1 milhão de GPTs personalizados criados. Apesar da breve duração do evento de 26 minutos e de algumas demonstrações ao vivo um tanto desajeitadas, a tecnologia que logo será lançada promete aprimorar a experiência do usuário, oferecendo uma interface mais natural e poderosa do que as versões anteriores.