Recentemente, a OpenAI anunciou uma atualização significativa: a versão de acesso antecipado (Alpha) do modo de voz do GPT-4o está agora disponível para alguns assinantes do ChatGPT Plus, com planos para um lançamento mais amplo neste outono. Este desenvolvimento representa um avanço notável na integração de tecnologias de processamento de linguagem natural e interação por voz.
O GPT-4o é o mais recente modelo unificado da OpenAI, capaz de processar entradas de texto, visual e áudio através de uma única rede neural, permitindo uma conectividade sem costura. Essa capacidade não apenas melhora o desempenho geral do modelo, mas também proporciona aos usuários uma experiência de conversa mais natural e instantânea.
Mira Murati, Diretora de Tecnologia da OpenAI, explicou que o GPT-4o é a primeira tentativa abrangente da empresa de unir modalidades textuais, visuais e auditivas. Embora o modelo ainda esteja nas fases iniciais de exploração de funcionalidades e avaliação de limitações, a equipe permanece otimista quanto ao seu potencial e está trabalhando ativamente em otimizações.
Inicialmente agendada para teste no final de junho, a fase de avaliação do modo de voz do GPT-4o foi adiada para aprimorar o modelo. A OpenAI indicou que está melhorando a capacidade do modelo de detectar e rejeitar conteúdo inadequado, garantindo uma experiência segura e positiva para os usuários. Graças a esses esforços, o modo de voz do GPT-4o foi lançado antes do previsto, sinalizando sua disponibilidade para um público mais amplo.
Quando comparado ao GPT-3.5 e ao GPT-4, o GPT-4o se destaca na comunicação por voz. Dados revelam que o tempo médio de resposta vocal do GPT-3.5 era de 2,8 segundos, enquanto o GPT-4 prolongou esse tempo para 5,4 segundos, afetando a fluidez da conversa. No entanto, com otimizações técnicas, o GPT-4o reduziu drasticamente esse atraso, alcançando uma experiência de conversa quase sem interrupções. Ele também apresenta respostas rápidas e um tom altamente realista, com a capacidade de perceber e simular emoções como tristeza e empolgação, enriquecendo a vivacidade do diálogo.
À medida que a OpenAI promove o modo de voz do GPT-4o, enfatiza seu compromisso com a privacidade e segurança dos usuários. A porta-voz da empresa, Lindsay McCallum, afirmou que o ChatGPT nunca irá imitar a voz de qualquer indivíduo ou figura pública, e saídas que não correspondam a vozes pré-definidas são rigorosamente restritas para proteger os direitos e a privacidade dos usuários.
Com a introdução do modo de voz do GPT-4o, a OpenAI visa continuar liderando a inovação em tecnologia de inteligência artificial, proporcionando experiências de interação por voz mais inteligentes, convenientes e seguras.