A Synthesia, uma startup londrina especializada na criação de vídeos em IA para empresas, aprimorou sua plataforma com a introdução de “avatares expressivos”. A partir de hoje, esses avatares de IA elevam as capacidades dos avatares digitais tradicionais ao ajustar seu tom, expressões faciais e linguagem corporal conforme o contexto do conteúdo. Este lançamento segue a recente apresentação da Microsoft do VASA, uma estrutura de IA que transforma fotos de rostos humanos em vídeos animados de fala e canto, com expressões e movimentos de cabeça. No entanto, ao contrário do VASA, que permanece como um projeto de pesquisa, os avatares expressivos da Synthesia oferecem tecnologia real, projetada para ajudar as empresas a criar vídeos em IA mais realistas para seus públicos.
O Salto Inovador da Synthesia em Vídeos de IA
Fundada em 2017 por pesquisadores e empreendedores de IA da Stanford e Cambridge, a Synthesia desenvolveu uma plataforma completa que combina vozes e avatares personalizados em IA. Os usuários podem criar vídeos em IA com qualidade de estúdio utilizando roteiros pré-escritos ou conteúdo gerado por IA, levando a uma adoção significativa entre empresas. Mais de 200 mil usuários já produziram mais de 18 milhões de vídeos, embora os avatares anteriores não conseguissem transmitir sentimentos de forma eficaz, pois não podiam modificar seu tom ou expressões com base no roteiro em tempo real. Com o lançamento dos avatares expressivos, essa limitação é superada.
Segundo a Synthesia, os novos avatares de IA compreendem o sentimento e o contexto do texto, ajustando seu tom e expressões em conformidade. Eles conseguem transmitir uma variedade de emoções por meio de mudanças sutis em expressões, piscar e movimentos oculares. Por exemplo, um avatar pode sorrir ao discutir um tópico alegre ou desacelerar a fala com pausas mais longas para conteúdos sombrios.
“Nossa meta não é apenas criar renders digitais, mas introduzir atores digitais”, afirmou Jon Starck, CTO da Synthesia, em um post no blog. “Essa tecnologia aumenta o realismo dos avatares digitais, desfocando a linha entre o virtual e o real.”
Fundação Técnica dos Avatares Expressivos
Para alcançar essa compreensão sutil dos sentimentos, a Synthesia utiliza o modelo de aprendizado profundo EXPRESS-1, treinado em extensos dados de texto e vídeo que refletem a comunicação falada no mundo real. “O EXPRESS-1 prevê movimentos e expressões faciais em tempo real, alinhando-se perfeitamente às nuances e ênfases da fala, resultando em performances extraordinariamente naturais”, explicou Starck. Os novos avatares também possuem capacidades aprimoradas de sincronização labial e voz em múltiplos idiomas.
Implicações dos Avatares Expressivos
Embora avatares de IA com emoções humanas apresentem riscos potenciais para uso indevido, a Synthesia está comprometida em promover aplicações empresariais positivas, especialmente em comunicação e compartilhamento de conhecimento. Por exemplo, empresas de saúde podem usar avatares expressivos para produzir vídeos mais empáticos para pacientes, enquanto equipes de marketing podem transmitir entusiasmo por um novo produto.
Para fomentar um uso responsável, a Synthesia revisou suas políticas para restringir determinados tipos de conteúdo em sua plataforma e está investindo ativamente em tecnologias de detecção precoce de abusos e verificação de conteúdo, como o C2PA.
Atualmente, com uma equipe de 300 colaboradores, a Synthesia colabora com mais de 55 mil empresas, incluindo metade da lista Fortune 100. Entre seus clientes está a Zoom, que relata um aumento de 90% na eficiência na criação de vídeos de vendas e treinamento utilizando a Synthesia.