A Amazon revelou melhorias significativas nas capacidades de processamento de linguagem natural e fala da Alexa, permitindo que a assistente virtual tenha interações mais semelhantes às humanas. Esse avanço, mencionado pela primeira vez durante uma apresentação em maio, introduz um novo modelo subjacente projetado para tornar as conversas mais fluídas e intuitivas.
Entre as novas funcionalidades, a Alexa agora pode realizar chamadas de API, oferecendo melhor acesso a informações e experiências personalizadas. O embasamento de conhecimento da assistente foi refinado, aumentando sua confiabilidade na fornecimento de respostas precisas. Além disso, a Amazon reformulou o sistema de reconhecimento automático de fala (ASR) da Alexa, melhorando seus algoritmos e hardware, enquanto faz a transição para um modelo de texto-para-fala mais abrangente, treinado em milhares de horas de dados de áudio multilíngues. Esse avançado sistema ASR se recupera de interrupções de forma inteligente, graças a uma função que corrige fala truncada, possibilitando trocas mais fluidas.
Além dessas atualizações, a Alexa ganhou um novo modelo de fala-para-fala que incorpora qualidades conversacionais humanas, como risadas e a capacidade de refletir o tom emocional do usuário. Por exemplo, se um usuário expressar empolgação, a Alexa pode responder de maneira correspondente, enriquecendo a interação com nuances emocionais.
Essas inovações foram apresentadas pelo vice-presidente sênior da Amazon, Dave Limp, durante um evento na nova sede da empresa em Arlington, Virginia. Limp destacou que as interações com a Alexa agora são projetadas para se sentirem "como conversar com outra pessoa", ressaltando os avanços nas habilidades conversacionais da assistente.
Outra característica notável permite que os usuários ativem a Alexa simplesmente olhando para a tela de um dispositivo com câmera, eliminando a necessidade de uma palavra de ativação. Essa melhoria, frequentemente comparada às últimas atualizações da Siri, utiliza novos processamentos visuais no dispositivo juntamente com modelos acústicos para determinar com precisão quando um usuário está se dirigindo à Alexa ou a outra pessoa.
A implementação dessas impressionantes funcionalidades começará nos próximos meses e está alinhada com a visão do CEO Andy Jassy de criar "o melhor assistente pessoal do mundo". Para apoiar essa missão, a Amazon estabeleceu uma equipe central dedicada a projetos ambiciosos de inteligência artificial. Essa equipe, liderada por Rohit Prasad, chefe científico da Alexa e que reporta diretamente ao CEO Jassy, está preparada para desenvolver grandes modelos de linguagem que elevarão ainda mais as funcionalidades e a experiência do usuário da Alexa.