Após o lançamento bem-sucedido de ferramentas para síntese de texto-para-fala e fala-para-fala, a startup de voz AI ElevenLabs está mirando uma nova fronteira. Fundada por ex-funcionários do Google e Palantir, a startup de dois anos apresentou hoje sua mais recente inovação: Sound Effects, uma ferramenta de IA que transforma texto em som.
Já disponível no site da ElevenLabs, o Sound Effects utiliza o modelo de base proprietário da empresa, permitindo que criadores gera amostras de áudio diversas apenas digitando uma descrição do som desejado.
Inicialmente anunciado em fevereiro com clipes gerados por Sora e aprimorados por efeitos sonoros de IA, o Sound Effects representa um avanço significativo para criadores de conteúdo que buscam experiências de áudio imersivas.
O que os Criadores Podem Esperar do Sound Effects?
Tradicionalmente, adicionar ruídos ambientais a conteúdos—como vídeos sociais, jogos, filmes e séries—exigia que os criadores gravassem sons manualmente ou comprassem arquivos de áudio de diversos repositórios online. Essa abordagem pode ser limitante, resultando em uma escassez de sons disponíveis e potenciais restrições orçamentárias.
O Sound Effects da ElevenLabs simplifica esse processo. Os usuários podem descrever facilmente o som que imaginam em uma linguagem simples e conversacional. O modelo subjacente processa a solicitação e gera seis amostras de áudio únicas para os usuários escolherem. Eles podem ouvir cada opção e baixar ou salvar as amostras preferidas diretamente da plataforma ElevenLabs.
Em testes iniciais, um veículo de mídia observou que o Sound Effects produzia resultados claros em 30 a 40 segundos, embora apenas quatro opções tenham sido geradas ao invés de seis. Essas amostras incluíam uma variedade de sons ambientais—de ruídos comuns como trovões e campainhas a efeitos mais complexos como macacos tagarelando e trens chegando.
Mati Staniszewski, CEO da ElevenLabs, destacou que a ferramenta é capaz de gerar amostras de áudio mais longas, incluindo músicas instrumentais e vozes de personagens. “O Sound Effects pode gerar faixas instrumentais de até 22 segundos com comandos como 'loop de guitarra' ou 'solo de saxofone de jazz'”, explicou. Os usuários também podem criar vozes de personagens com solicitações como “uma mulher cantando enquanto dança na areia” ou “um ogro dizendo: ‘afaste-se, humano ínfimo.’” Além disso, é possível encadear sons com prompts como “Uma idosa alegre diz que está tão orgulhosa de você e depois ri.”
Embora detalhes específicos sobre o modelo subjacente não tenham sido divulgados, a ElevenLabs enfatizou que ele foi desenvolvido por meio de pesquisas internas e aprimorado utilizando a extensa biblioteca de trilhas de áudio licenciadas da Shutterstock. Aimee Egan, Chief Enterprise Officer da Shutterstock, expressou entusiasmo sobre a colaboração, afirmando: "A sinergia entre nossa rica biblioteca e esta tecnologia de áudio inovadora resultou em um verdadeiro marco no mercado."
Objetivo de Capacitar Criadores Globalmente
Desde seu lançamento, a ElevenLabs tem se dedicado a criar soluções avançadas de áudio com IA. A empresa começou com modelos de texto-para-fala em múltiplas línguas, seguidos de produtos notáveis como clonagem de voz e dublagem AI, que traduz áudio e vídeo em 29 idiomas enquanto mantém a voz original do falante.
Com o Sound Effects, a ElevenLabs está expandindo suas ofertas, fornecendo a criadores—incluindo cineastas, desenvolvedores de jogos, profissionais de marketing e influenciadores de redes sociais—ferramentas mais poderosas para elevar seu conteúdo.
Embora Staniszewski não tenha revelado quais empresas estão atualmente testando o produto em fase alfa, ele mencionou que a ElevenLabs atende 41% da Fortune 500, com clientes notáveis como The Washington Post, Storytel e TheSoul Publishing.
Olhando para o futuro, a empresa planeja introduzir um modelo de geração de música e uma oferta de estúdio de dublagem, ambos atualmente em fase alfa, embora os cronogramas permaneçam incertos.
O mercado de geração de fala, som e música por IA está em crescimento, com concorrentes como Google, Meta, Suno, Pika, MURF.AI, Play.ht e WellSaid Labs. Segundo a Market US, o mercado global para essas ferramentas atingiu US$ 1,2 bilhão em 2022 e deve crescer para quase US$ 5 bilhões até 2032, com uma taxa de crescimento anual composta (CAGR) superior a 15,40%.