O recurso "clique aqui para ouvir este artigo" no topo de algumas páginas da web é inestimável para pessoas com deficiências visuais, dificuldades de leitura e também para aqueles que estão sem tempo. Esta semana, a ElevenLabs, uma startup pioneira em IA de voz, lançou o Audio Native, um leitor de áudio inovador que narra automaticamente o conteúdo das páginas da web usando a avançada tecnologia de conversão de texto em fala da empresa.
Além disso, a ElevenLabs apresentou o ElevenLabs Reader, que oferece narração em 11 vozes diferentes, tanto para páginas da web quanto para documentos. Seus modelos de voz suportam 29 idiomas, com capacidade para dublar filmes completos e converter comandos em letras de músicas. O Audio Native está disponível no nível "creator" por US$ 11 por mês e inclui métricas integradas e um painel para monitorar o engajamento do público. Na sua página do X (antigo Twitter), a ElevenLabs demonstrou sites que utilizam sua tecnologia, como seu blog, um guia de IA para SEO do bensbites.com e um artigo da New Yorker de novembro de 2023 intitulado “Nem todas as ameaças à segurança nacional da América estão no exterior.” Veículos de mídia como The Atlantic e The New York Times também adotaram a tecnologia da ElevenLabs. "É personalizável, fácil de configurar e aumenta o engajamento do leitor, tornando seu conteúdo mais acessível para públicos em todo o mundo", afirmou Sam Sklar, da ElevenLabs, em um post no blog.
Incorporando Áudio em Sites
Com o Audio Native, os usuários podem facilmente incorporar e dar voz ao seu site ou integrar áudio de projetos existentes usando a API da ElevenLabs. Para isso, é necessário fornecer um pequeno trecho de HTML, adicionar seu domínio à lista de permissões, selecionar uma voz das opções disponíveis e personalizar a cor de fundo e do texto do player antes de copiar e colar o código fornecido no site. Um dicionário de pronúncia opcional permite incluir expressões específicas de uma marca. Por padrão, o modelo gera locuções para todo o conteúdo textual em uma página, mas a personalização é possível com seletores CSS. A ferramenta atualmente suporta plataformas como React, Squarespace, WordPress, Ghost, Webflow e Framer.
As primeiras avaliações descrevem a ferramenta como "incrível" e "fantástica", destacando seu potencial significativo para melhorar a acessibilidade.
Inovações Futuras à Vista
Com base nas respostas nas redes sociais, a ElevenLabs parece comprometida em expandir suas funcionalidades. Quando um usuário sugeriu a adição de recursos de feed RSS para podcasting de seu conteúdo escrito, Luke Harries, chefe de crescimento da ElevenLabs, respondeu: “Ótima ideia, compartilhando com a equipe.” Fundada em 2022 pelo ex-engenheiro do Google Piotr Dabkowski e o estrategista da Palantir Mati Staniszewski, a ElevenLabs rapidamente alcançou uma avaliação de US$ 1,1 bilhão. A empresa assegurou US$ 80 milhões em sua mais recente rodada de financiamento em janeiro.
Em um mercado competitivo com players como Speechify, Deepgram e Voicemod, a ElevenLabs se destaca no em um mercado de clonagem de voz em IA em rápido crescimento, projetado para alcançar US$ 16,2 bilhões até 2032, com uma taxa de crescimento anual composta (CAGR) de quase 28% a partir de 2023. A ElevenLabs também fez parceria com a HarperCollins Publishers para criar audiolivros gerados por IA e lançou um marketplace para que usuários monetizem suas vozes clonadas. No entanto, a empresa enfrenta escrutínio sobre suas capacidades de geração de música e preocupações sobre o uso de materiais protegidos por direitos autorais no treinamento de seus modelos, um tema que vem ganhando atenção crescente recentemente.