O Modo de Voz Avançado do ChatGPT foi lançado na terça-feira para um seleto grupo de assinantes da OpenAI como parte de sua aguardada versão alfa. Anunciado originalmente em maio, esse recurso revoluciona a interação ao ir além do diálogo tradicional em texto, engajando os usuários através de uma linguagem falada natural, apresentada com qualidade realista. O sistema suporta uma variedade de sotaques regionais e idiomas. Segundo a OpenAI, o Modo de Voz Avançado busca proporcionar “conversas mais naturais e em tempo real, permitindo interrupções a qualquer momento e sentindo e respondendo às suas emoções”.
Entretanto, existem algumas limitações ao usar o Modo de Voz. O sistema opera com quatro vozes predefinidas e não consegue imitar as vozes de usuários individuais ou figuras públicas. Respostas que fogem dessas predefinições são automaticamente bloqueadas. Além disso, o Modo de Voz Avançado não foi projetado para criar áudio protegido por direitos autorais ou produzir músicas. Curiosamente, usuários já experimentaram pedir ao AI que fizesse beatbox.
Ethan Sutin, um testador alfa, compartilhou uma thread no X (anteriormente Twitter) mostrando várias respostas do Modo de Voz Avançado, incluindo um curto “rap de aniversário” e uma demonstração de beatbox. Os usuários podem ouvir a respiração digital da IA entre os ritmos. Embora não consiga criar músicas completas, a IA impressiona ao adicionar efeitos sonoros a histórias de ninar, aprimorando a experiência narrativa. Por exemplo, ela gera estrondos e batidas adequadas durante um conto sobre um ciborgue rebelde, quando solicitada a criar uma atmosfera imersiva.
O Modo de Voz Avançado também pode gerar personagens realistas de forma espontânea, aumentando sua qualidade realista. Os usuários podem pedir à IA que fale em vários tons e idiomas, enriquecendo suas interações.
As capacidades vocais da IA vão além dos idiomas humanos. Quando instruído, o Modo de Voz Avançado pode imitar sons de gatos com precisão. Usuários podem interagir com a IA com perguntas sobre seus companheiros peludos, recebendo dicas e conselhos personalizados em tempo real.
Além disso, o Modo de Voz Avançado pode utilizar a câmera do seu dispositivo para apoiar esforços de tradução. Em um exemplo, um usuário apontou seu telefone para um jogo de Pokémon em japonês do GameBoy Advance, permitindo que a IA lesse o diálogo na tela enquanto jogavam. Embora recursos de vídeo e compartilhamento de tela não façam parte do lançamento alfa, a OpenAI planeja introduzi-los em breve. A empresa pretende expandir a versão alfa para mais assinantes Plus nas próximas semanas, com um lançamento completo programado para este outono.