Dias após a apresentação do avatar aprimorado do ChatGPT, que oferece respostas em tempo real e humanizadas, a OpenAI decidiu suspender o muito comentado recurso de voz "Sky". Essa decisão foi tomada devido a preocupações de que a voz Sky se assemelha demais à performance de Scarlett Johansson como a personagem de IA no filme "Her". A OpenAI refutou as alegações de imitação direta, esclarecendo que a voz é de uma "atriz profissional diferente que utiliza sua própria voz natural".
Atualmente, não está claro quando, ou se, a voz Sky será reintegrada. No entanto, os usuários do ChatGPT ainda podem escolher entre quatro opções de voz alternativas: Breeze, Cove, Ember e Juniper.
Após o anúncio, o jornalista Yashar Ali compartilhou uma declaração do representante de Johansson, confirmando que a atriz foi abordada pelo CEO da OpenAI, Sam Altman, para participar do projeto de voz antes do lançamento, mas declinou. Johansson expressou choque e frustração ao ouvir a demonstração, notando que a voz era alarmantemente semelhante à sua, causando confusão entre amigos e veículos de notícias.
A OpenAI lançou recursos de voz para o ChatGPT em setembro de 2023, mas o modelo inicial apresentou latência notável devido à dependência de três sistemas distintos: um para transcrever áudio em texto, GPT-3.5/GPT-4 para gerar respostas e outro para converter o texto de volta em áudio. Como resultado, a IA tinha dificuldades em reagir a tonalidades, múltiplos falantes e ruídos de fundo.
Para superar essas limitações, a OpenAI anunciou recentemente o GPT-4o — uma IA multimodal unificada em tempo real que integra texto, voz e visão, proporcionando respostas em aproximadamente 320 milissegundos. Esse upgrade posicionou o ChatGPT como um possível concorrente de assistentes de voz estabelecidos, como Siri e Alexa.
Após o lançamento, os usuários rapidamente notaram que a voz Sky tinha uma semelhança marcante com a personagem de IA "Samantha" de "Her", levando a especulações sobre se a OpenAI havia usado IA para replicar as características vocais de Johansson.
Em resposta a essas preocupações, a OpenAI pausou a voz Sky, esclarecendo que não se trata de uma imitação de Johansson, mas sim da voz de uma atriz profissional selecionada após um extenso processo de recrutamento de cinco meses. "Acreditamos que as vozes de IA não devem deliberadamente imitar a voz distintiva de uma celebridade", afirmou a OpenAI em um post no blog. A empresa enfatizou que as vozes foram escolhidas de um grupo de 400 candidatos com base em critérios que refletem diversidade, atemporalidade e calor.
Enquanto a voz Sky está suspensa, as outras quatro opções continuam disponíveis. Com o lançamento do novo Modo de Voz do GPT-4o, os usuários podem explorar essas alternativas ao interagir com a IA.
Quanto ao futuro da voz Sky, ainda não está claro quais ajustes a OpenAI planeja implementar para resolver as preocupações sobre suas semelhanças com a personagem de Johansson. A empresa continua comprometida em colaborar com os atores de voz envolvidos e planeja expandir sua oferta com opções vocais adicionais para atender às variadas preferências e interesses dos usuários.