OpenAI Lança o Modo de Voz Avançado do ChatGPT com Interação Humana para Usuários dos EUA e da Equipe!

A OpenAI está lançando seu aguardado "Modo de Voz Avançado do ChatGPT", uma interface de voz conversacional similar à humana, ampliando o acesso além do grupo inicial de testes e da lista de espera. Esse recurso será disponibilizado para todos os assinantes pagantes dos planos ChatGPT Plus e Team, com acesso gradativo começando nos EUA nos próximos dias. Assinantes dos planos Edu e Enterprise podem esperar a disponibilidade na próxima semana.

Além da interface de voz, a OpenAI está introduzindo a possibilidade de armazenar "instruções personalizadas" e "memória" para interações mais personalizadas, espelhando recursos anteriormente lançados para a opção de texto do ChatGPT. Os usuários terão à disposição cinco novos estilos de voz — Arbor, Maple, Sol, Spruce e Vale — complementando as vozes existentes: Breeze, Juniper, Cove e Ember.

Essa atualização permite que os usuários do ChatGPT interajam com o chatbot por meio da voz, em vez de digitar. Uma notificação pop-up confirmará quando os usuários entrarem no modo de Assistente de Voz Avançado no aplicativo. A OpenAI investiu tempo refinando os sotaques para idiomas estrangeiros populares e melhorando a fluidez da conversa desde a versão alfa. Os usuários também notarão um Modo de Voz Avançado redesenhado, com uma esfera azul animada.

Essas atualizações são exclusivas do modelo GPT-4o, excluindo o novo modelo de pré-visualização o1. As funcionalidades de instruções personalizadas e memória personalizarão ainda mais as interações dos usuários durante as conversas por voz.

À medida que assistentes de voz como Siri, da Apple, e Alexa, da Amazon, ganham popularidade, os desenvolvedores buscam criar experiências conversacionais mais semelhantes às humanas. O ChatGPT já incorporou a funcionalidade de voz com seu recurso de Leitura em Voz Alta; no entanto, o Modo de Voz Avançado visa proporcionar uma interação mais envolvente e autêntica.

Entre os concorrentes, a Hume AI lançou recentemente sua Interface de Voz Empática, que detecta emoções por meio de padrões de voz, e a Kyutai apresentou seu assistente de voz AI de código aberto, Moshi. O Google adicionou vozes ao seu chatbot Gemini, enquanto a Meta desenvolve vozes imitando atores populares para sua plataforma de AI. A OpenAI afirma que está tornando a tecnologia de voz AI mais acessível do que seus concorrentes.

Apesar da empolgação, a integração de vozes de AI não ocorreu sem controvérsias. Surgiram preocupações sobre a semelhança de uma das vozes do ChatGPT, Sky, com a voz da atriz Scarlett Johansson, especialmente após o CEO Sam Altman se referir a "ela", reminiscentemente ao papel de Johansson como assistente de AI em um filme. A OpenAI enfatizou que não tem a intenção de replicar as vozes de indivíduos conhecidos e afirma que os usuários terão acesso a apenas nove vozes distintas da OpenAI.

O lançamento foi inicialmente adiado de uma previsão de final de junho para "final de julho ou início de agosto", em parte devido ao compromisso com testes de segurança. A OpenAI realizou avaliações extensivas com equipes externas fluentes em 45 idiomas em 29 regiões. A decisão de expandir o acesso agora sugere que a OpenAI se sente confiante nas medidas de segurança implementadas, alinhando-se à sua abordagem cautelosa de colaboração com os governos dos EUA e do Reino Unido e fornecendo pré-visualizações de novos modelos antes do lançamento.

Most people like

Find AI tools in YBX