A OpenAI anunciou recentemente no X (anteriormente Twitter) que seu tão aguardado recurso de Voz Avançada para o ChatGPT começará a ser liberado "na próxima semana", inicialmente para um grupo seleto de assinantes do ChatGPT Plus. Este teste alfa tem como objetivo coletar feedback dos usuários antes de expandir o recurso com base nas suas contribuições.
A Voz Avançada transforma a interação do usuário ao permitir conversas naturais sem depender de comandos de texto, semelhante a conversar com outra pessoa. Apresentada pela primeira vez em maio durante o lançamento do GPT-4o no evento de Atualização de Primavera da empresa, essa funcionalidade se destaca de assistentes digitais típicos, como Siri e Google Assistant. Ao contrário desses sistemas, que frequentemente oferecem respostas roteirizadas, a Voz Avançada do ChatGPT fornece respostas quase instantâneas, semelhantes às humanas, em vários idiomas. O modelo GPT-4o possui um tempo médio de resposta de áudio de apenas 320 milissegundos, comparável à velocidade da conversa humana. No vídeo de demonstração, os espectadores podem observar como o modelo interage com vários usuários, improvisa discussões em inglês e português e demonstra emoções humanas, incluindo risadas.
Os detalhes sobre como os participantes serão selecionados para o teste alfa ainda não estão claros, embora precisem ser assinantes do ChatGPT Plus, no valor de $20/mês. Inicialmente programado para junho, o teste alfa foi adiado para aprimorar as capacidades de moderação de conteúdo do sistema e fortalecer sua infraestrutura de TI para lidar com a demanda esperada dos usuários. Conforme anunciado em junho, o lançamento completo da Voz Avançada não é esperado antes deste outono, e o cronograma dependerá da garantia de que o recurso atenda a altos padrões de segurança e confiabilidade.
A integração de capacidades de conversa natural ao ChatGPT representa um avanço significativo. Essa melhoria reduz a necessidade de uma janela de contexto, facilitando os requisitos de hardware e ampliando as potenciais aplicações da IA—particularmente para usuários com desafios de mobilidade ou destreza. Além disso, ao simplificar as interações, esse recurso abre caminho para uma maior aceitação da tecnologia de IA entre usuários que podem estar familiarizados com comandos de voz, como "hey Siri", mas acham a engenharia de prompts intimidadora.