O GPT-4o da OpenAI é o modelo de linguagem mais recente e avançado desenvolvido pela empresa, trazendo uma série de recursos inovadores tanto para usuários gratuitos quanto pagos. Como uma IA multimodal, aprimora a experiência do ChatGPT com respostas mais rápidas, melhor compreensão e um conjunto de novas funcionalidades que serão lançadas nas próximas semanas.
Com a concorrência crescente de Llama 3 da Meta e Gemini do Google, o novo modelo da OpenAI busca liderar o mercado. Confira o que o torna tão empolgante.
Para aqueles que utilizam a versão gratuita do ChatGPT e que sentem inveja dos recursos disponíveis para usuários do ChatGPT Plus, boas notícias! Agora, é possível explorar a detecção de imagens, fazer upload de arquivos, localizar GPTs personalizados na GPT Store, utilizar a Memória para reter o histórico de conversas, facilitando interações mais suaves, além de realizar análises de dados complexas e cálculos.
O GPT-4o reflete a inteligência do modelo padrão GPT-4, embora tenha sido desenvolvido como uma IA multimodal desde o início. A principal vantagem do GPT-4o é seu custo computacional reduzido, exigindo menos tokens e tornando-o acessível a um público mais amplo. No entanto, usuários gratuitos terão um limite no número de mensagens que podem enviar diariamente. Ao atingir esse limite, o acesso será revertido para o modelo GPT-3.5.
O GPT-4 introduziu várias melhorias em relação ao GPT-3.5, com a velocidade sendo um componente vital. Embora o GPT-4 tenha passado por aprimoramentos, geralmente opera de forma mais lenta. Em contraste, o GPT-4o oferece respostas quase instantâneas, tornando as interações mais rápidas e acionáveis, especialmente em tarefas em tempo real, como tradução e assistência conversacional.
Na sua estreia, o GPT-4o suporta texto e imagens, mas foi projetado para eventualmente utilizar comandos de voz e engajar usuários com áudio. Ao contrário do GPT-4, que convertia voz em texto, processava a resposta e depois convertia novamente em voz, o GPT-4o pode compreender diretamente a entrada de voz e responder de acordo. Seu processamento mais rápido permite conversas mais naturais, entendendo nuances como tom, ritmo e humor. O GPT-4o pode rir, ser sarcástico, ajustar respostas rapidamente e compreender múltiplas línguas para tradução em tempo real. Ele pode cantar e até criar duetos.
O GPT-4o melhora significativamente a compreensão do usuário em comparação com seus antecessores — especialmente para interações faladas. Ele interpreta tom e intenção com mais precisão, mantendo uma abordagem amigável e descontraída. Ao analisar código ou texto, leva em consideração suas intenções, resultando em respostas mais personalizadas com menos necessidade de indicações específicas. Sua capacidade de analisar vídeos e imagens enriquece sua compreensão do mundo ao seu redor.
Atualmente, usuários do Windows têm acesso apenas ao recurso básico do Copilot, enquanto usuários do macOS em breve poderão aproveitar totalmente o ChatGPT e o modelo GPT-4o diretamente de suas áreas de trabalho. Um novo aplicativo nativo para desktop oferecerá acessibilidade aprimorada e uma interface de usuário reformulada, facilitando as interações. Este aplicativo será lançado em breve para a maioria dos usuários do ChatGPT Plus e chegará aos usuários gratuitos nas próximas semanas, com uma versão para Windows prevista para este ano.
No momento, o público pode acessar as capacidades de texto e imagem do GPT-4o, mas o suporte avançado a voz e a compreensão de vídeo em tempo real estão a caminho, junto com a ampla disponibilidade do aplicativo de desktop para macOS. Essas atualizações empolgantes e melhorias adicionais para o ChatGPT estão prestes a ser lançadas.