aiOla Lança Modelo de Reconhecimento de Fala 'Multi-Head' Ultra-Rápido, Superando o OpenAI Whisper

Home Notícias de IA aiOla Lança Modelo de Reconhecimento de Fala 'Multi-Head' Ultra-Rápido, Superando o OpenAI Whisper

aiOla Lança Whisper-Medusa: Um Modelo Revolucionário de Reconhecimento de Fala

Hoje, a startup israelense de IA, aiOla, apresentou o Whisper-Medusa, um modelo inovador de reconhecimento de fala de código aberto que opera 50% mais rápido que o popular Whisper da OpenAI. O Whisper-Medusa utiliza uma arquitetura nova de “múltiplas atenções”, permitindo prever múltiplos tokens ao mesmo tempo, o que aumenta significativamente sua velocidade. O código e os pesos do modelo estão disponíveis no Hugging Face sob licença MIT, apoiando pesquisas e aplicações comerciais.

Ao tornar essa solução de código aberto, a aiOla fomenta inovação e colaboração dentro da comunidade de IA. “Isso pode levar a melhorias de velocidade ainda maiores conforme desenvolvedores e pesquisadores aperfeiçoem nosso trabalho,” afirmou Gill Hetz, VP de Pesquisa da aiOla. As melhorias podem abrir caminho para sistemas de IA que compreendem e respondem a perguntas dos usuários em quase tempo real.

O Que Torna o Whisper-Medusa Distinto?

À medida que modelos fundamentais produzem conteúdos cada vez mais diversos, a importância de um reconhecimento avançado de fala se torna essencial. Essa tecnologia é crítica em diversos setores, como saúde e fintech, facilitando tarefas como transcrição e apoiando sistemas sofisticados de IA multimodal. No ano passado, o modelo Whisper da OpenAI transformou o áudio dos usuários em texto para processamento por modelos de linguagem de grande escala (LLMs), que, então, retornavam respostas faladas.

O Whisper se tornou o padrão ouro em reconhecimento de fala, processando padrões de fala complexos e sotaques em quase tempo real. Com mais de 5 milhões de downloads mensais, ele suporta dezenas de milhares de aplicações.

Agora, a aiOla afirma que o Whisper-Medusa consegue um reconhecimento e transcrição de fala ainda mais rápidos. Ao aprimorar a arquitetura do Whisper com um mecanismo de atenção múltipla, o modelo pode prever dez tokens por passagem, em vez de um, resultando em um aumento de 50% na velocidade de previsão e eficiência em tempo de execução.

aiOla Whisper-Medusa vs. OpenAI Whisper

Apesar do aumento de velocidade, o Whisper-Medusa mantém o mesmo nível de precisão do modelo Whisper original devido à sua arquitetura fundamental. Hetz declarou: “Somos os primeiros da indústria a aplicar essa abordagem a um modelo de reconhecimento automático de fala (ASR) e liberá-lo para pesquisa pública.”

“Melhorar a velocidade dos LLMs é mais fácil do que otimizar sistemas de ASR. As complexidades dos sinais de áudio contínuos e do ruído apresentam desafios únicos. Através da nossa abordagem de atenção múltipla, quase dobramos a velocidade de previsão sem sacrificar a precisão,” explicou Hetz.

Metodologia de Treinamento do Whisper-Medusa

A aiOla utilizou uma técnica de aprendizado de máquina com supervisão fraca para treinar o Whisper-Medusa. Ao congelar os componentes principais do Whisper, ela aproveitou transcrições de áudio geradas pelo próprio modelo como rótulos para treinar módulos adicionais de previsão de tokens.

Hetz mencionou que começaram com um modelo de 10 cabeças e planejam expandir para uma versão de 20 cabeças, capaz de prever 20 tokens simultaneamente, resultando em reconhecimento e transcrição ainda mais rápidos sem comprometer a precisão. “Esse método permite processar todo o áudio de fala de uma vez, reduzindo a necessidade de múltiplas passagens e aumentando a velocidade,” afirmou.

Enquanto Hetz permaneceu discreto sobre o acesso antecipado para empresas específicas, ele confirmou que casos reais de uso corporativo foram testados para validar desempenho em aplicações do mundo real. Espera-se que uma melhora nas velocidades de reconhecimento e transcrição facilite respostas mais rápidas em aplicações de fala. Imagine um assistente de IA como a Alexa fornecendo respostas em segundos.

“A indústria se beneficiará enormemente de sistemas de fala para texto em tempo real, aumentando a produtividade, reduzindo custos e acelerando a entrega de conteúdo,” concluiu Hetz.

Hedra Lança Character-1: Um Modelo Inovador de Fundamentos Focado em Vídeo

A Intel Anuncia Demissão de 15% da Força de Trabalho, Afetando Pelo Menos 15.000 Funcionários

Most people like

Nightwatch

122.9K

Apresentamos uma ferramenta de monitoramento de SEO impulsionada por IA, projetada para fornecer classificações de palavras-chave precisas e otimizadas. Desbloqueie todo o potencial da visibilidade do seu site com esta solução inovadora que garante que você permaneça à frente no dinâmico cenário digital.

Monitoramento de SEO AI SEO Assistant

HitPaw Voice Changer

2.4M

Transforme sua voz instantaneamente com um inovador modulador de voz em tempo real, que oferece uma ampla gama de efeitos impressionantes. Experimente a modulação de voz sem interrupções e eleve sua criatividade audio hoje mesmo!

Mudador de Voz AI Voice Changer

Haiper AI

4.3M

No cenário em rápida evolução da criação de conteúdo, os Modelos Fundamentais Perceptuais estão surgindo como uma ferramenta inovadora. Esses modelos avançados, impulsionados por inteligência artificial, são projetados para aumentar o envolvimento do usuário e agilizar o processo criativo, permitindo que os criadores de conteúdo produzam material de alta qualidade com mais eficiência. Ao explorarmos a importância desses modelos, revelaremos como eles revolucionam nossa abordagem ao conteúdo digital, oferecendo um potencial inigualável para inovação e criatividade.

criação de conteúdo Large Language Models (LLMs)

Resemble AI | Realistic AI Voice Generator

629.9K

Crie vozes sintéticas realistas em apenas segundos. Experimente o poder da tecnologia de ponta que oferece soluções de áudio realistas adaptadas às suas necessidades.

Gerador de voz de IA AI Speech Synthesis

Find AI tools in YBX