aiOla Lança Whisper-Medusa: Um Modelo Revolucionário de Reconhecimento de Fala
Hoje, a startup israelense de IA, aiOla, apresentou o Whisper-Medusa, um modelo inovador de reconhecimento de fala de código aberto que opera 50% mais rápido que o popular Whisper da OpenAI. O Whisper-Medusa utiliza uma arquitetura nova de “múltiplas atenções”, permitindo prever múltiplos tokens ao mesmo tempo, o que aumenta significativamente sua velocidade. O código e os pesos do modelo estão disponíveis no Hugging Face sob licença MIT, apoiando pesquisas e aplicações comerciais.
Ao tornar essa solução de código aberto, a aiOla fomenta inovação e colaboração dentro da comunidade de IA. “Isso pode levar a melhorias de velocidade ainda maiores conforme desenvolvedores e pesquisadores aperfeiçoem nosso trabalho,” afirmou Gill Hetz, VP de Pesquisa da aiOla. As melhorias podem abrir caminho para sistemas de IA que compreendem e respondem a perguntas dos usuários em quase tempo real.
O Que Torna o Whisper-Medusa Distinto?
À medida que modelos fundamentais produzem conteúdos cada vez mais diversos, a importância de um reconhecimento avançado de fala se torna essencial. Essa tecnologia é crítica em diversos setores, como saúde e fintech, facilitando tarefas como transcrição e apoiando sistemas sofisticados de IA multimodal. No ano passado, o modelo Whisper da OpenAI transformou o áudio dos usuários em texto para processamento por modelos de linguagem de grande escala (LLMs), que, então, retornavam respostas faladas.
O Whisper se tornou o padrão ouro em reconhecimento de fala, processando padrões de fala complexos e sotaques em quase tempo real. Com mais de 5 milhões de downloads mensais, ele suporta dezenas de milhares de aplicações.
Agora, a aiOla afirma que o Whisper-Medusa consegue um reconhecimento e transcrição de fala ainda mais rápidos. Ao aprimorar a arquitetura do Whisper com um mecanismo de atenção múltipla, o modelo pode prever dez tokens por passagem, em vez de um, resultando em um aumento de 50% na velocidade de previsão e eficiência em tempo de execução.
aiOla Whisper-Medusa vs. OpenAI Whisper
Apesar do aumento de velocidade, o Whisper-Medusa mantém o mesmo nível de precisão do modelo Whisper original devido à sua arquitetura fundamental. Hetz declarou: “Somos os primeiros da indústria a aplicar essa abordagem a um modelo de reconhecimento automático de fala (ASR) e liberá-lo para pesquisa pública.”
“Melhorar a velocidade dos LLMs é mais fácil do que otimizar sistemas de ASR. As complexidades dos sinais de áudio contínuos e do ruído apresentam desafios únicos. Através da nossa abordagem de atenção múltipla, quase dobramos a velocidade de previsão sem sacrificar a precisão,” explicou Hetz.
Metodologia de Treinamento do Whisper-Medusa
A aiOla utilizou uma técnica de aprendizado de máquina com supervisão fraca para treinar o Whisper-Medusa. Ao congelar os componentes principais do Whisper, ela aproveitou transcrições de áudio geradas pelo próprio modelo como rótulos para treinar módulos adicionais de previsão de tokens.
Hetz mencionou que começaram com um modelo de 10 cabeças e planejam expandir para uma versão de 20 cabeças, capaz de prever 20 tokens simultaneamente, resultando em reconhecimento e transcrição ainda mais rápidos sem comprometer a precisão. “Esse método permite processar todo o áudio de fala de uma vez, reduzindo a necessidade de múltiplas passagens e aumentando a velocidade,” afirmou.
Enquanto Hetz permaneceu discreto sobre o acesso antecipado para empresas específicas, ele confirmou que casos reais de uso corporativo foram testados para validar desempenho em aplicações do mundo real. Espera-se que uma melhora nas velocidades de reconhecimento e transcrição facilite respostas mais rápidas em aplicações de fala. Imagine um assistente de IA como a Alexa fornecendo respostas em segundos.
“A indústria se beneficiará enormemente de sistemas de fala para texto em tempo real, aumentando a produtividade, reduzindo custos e acelerando a entrega de conteúdo,” concluiu Hetz.