Após aprimorar a clonagem e a síntese de voz por meio de machine learning (ML), a ElevenLabs, uma startup de IA fundada há dois anos por ex-funcionários do Google e Palantir, está expandindo suas ofertas com um novo modelo de texto para som.
Anunciada recentemente, essa inovadora inteligência artificial permitirá que criadores gerem efeitos sonoros simplesmente descrevendo sua visão em palavras, enriquecendo o conteúdo no crescente panorama de experiências digitais movidas por IA. Embora o modelo ainda não esteja disponível publicamente, a ElevenLabs lançou um teaser demonstrando suas capacidades com vídeos criados pelo Sora da OpenAI, aprimorados com sons gerados pela IA da empresa. Eles também inauguraram uma página de inscrição para uma lista de espera de acesso antecipado.
Ampliando Possibilidades Sonoras com Efeitos Sonoros de IA
Fundada em 2022, a ElevenLabs tem se dedicado a tornar conteúdo de áudio e vídeo mais acessível em diferentes idiomas e regiões. A empresa oferece uma variedade de ferramentas, incluindo modelos de texto para fala e de fala para fala, capazes de produzir voz gerada por IA a partir de diversas fontes de conteúdo (texto, áudio ou vídeo) em 29 idiomas, mantendo uma entrega emocional e uma voz natural.
Essas ferramentas estão ganhando popularidade entre empresas e criadores individuais. Paralelamente, o conteúdo totalmente gerado por IA está em ascensão, facilitado por ferramentas como Runway e Pika, junto com o Sora da OpenAI. Embora esses produtos possam criar vídeos realistas a partir de comandos de texto simples, frequentemente carecem de áudio complementar. O novo modelo da ElevenLabs visa preencher essa lacuna, permitindo que usuários produzam efeitos sonoros para seu conteúdo baseados em descrições textuais.
Com essa oferta, criadores de IA podem aprimorar seus projetos de forma fluida com sons de fundo, desde o canto de pássaros até o ruído de ruas movimentadas. “Na ElevenLabs, principalmente demonstramos nossos modelos de texto para fala publicamente, mas temos muito mais em desenvolvimento. Quando a OpenAI apresentou o Sora, que gera vídeos impressionantes sem som, decidimos oferecer uma prévia de nossa linha de produtos que está por vir”, afirmou Luke Harries, chefe de crescimento da ElevenLabs, ao compartilhar um post com vídeos gerados pelo Sora enriquecidos com efeitos sonoros da ElevenLabs.
Os sons gerados por esse novo modelo também poderão ser aplicados a conteúdo falado a partir de texto ou a qualquer projeto de vídeo que exija áudio de fundo, como clipes do Instagram, comerciais ou trailers de jogos. A qualidade e a versatilidade desses efeitos sonoros ainda precisam ser avaliadas.
Inscreva-se para Acesso Antecipado
Embora a ElevenLabs não tenha anunciado uma data de lançamento público, já está aceitando inscrições para o acesso antecipado. Interessados podem visitar sua página de inscrição, fornecendo nome e e-mail, além de descrever o uso pretendido para os efeitos sonoros. Voluntários iniciais são incentivados a escrever um exemplo de comando para um efeito sonoro de IA, ajudando a otimizar as respostas do modelo.
Uma vez registrados, os usuários entrarão em uma lista de espera e ganharão acesso assim que o modelo estiver disponível, embora o cronograma atual ainda não esteja claro.
Embora a ElevenLabs possa ter uma vantagem inicial com essa tecnologia, outras empresas no setor de fala por IA, como MURF.AI, Play.ht e WellSaid Labs, também têm potencial para desenvolver produtos semelhantes. Segundo o Market US, o mercado global de ferramentas de áudio com IA foi avaliado em $1,2 bilhões em 2022 e deve alcançar quase $5 bilhões até 2032, com uma taxa de crescimento anual composta (CAGR) superior a 15,40%.