aiOla Lança Modelo de Reconhecimento de Fala 'Multi-Head' Ultra-Rápido, Superando o OpenAI Whisper

Home Notícias de IA aiOla Lança Modelo de Reconhecimento de Fala 'Multi-Head' Ultra-Rápido, Superando o OpenAI Whisper

aiOla Lança Whisper-Medusa: Um Modelo Revolucionário de Reconhecimento de Fala

Hoje, a startup israelense de IA, aiOla, apresentou o Whisper-Medusa, um modelo inovador de reconhecimento de fala de código aberto que opera 50% mais rápido que o popular Whisper da OpenAI. O Whisper-Medusa utiliza uma arquitetura nova de “múltiplas atenções”, permitindo prever múltiplos tokens ao mesmo tempo, o que aumenta significativamente sua velocidade. O código e os pesos do modelo estão disponíveis no Hugging Face sob licença MIT, apoiando pesquisas e aplicações comerciais.

Ao tornar essa solução de código aberto, a aiOla fomenta inovação e colaboração dentro da comunidade de IA. “Isso pode levar a melhorias de velocidade ainda maiores conforme desenvolvedores e pesquisadores aperfeiçoem nosso trabalho,” afirmou Gill Hetz, VP de Pesquisa da aiOla. As melhorias podem abrir caminho para sistemas de IA que compreendem e respondem a perguntas dos usuários em quase tempo real.

O Que Torna o Whisper-Medusa Distinto?

À medida que modelos fundamentais produzem conteúdos cada vez mais diversos, a importância de um reconhecimento avançado de fala se torna essencial. Essa tecnologia é crítica em diversos setores, como saúde e fintech, facilitando tarefas como transcrição e apoiando sistemas sofisticados de IA multimodal. No ano passado, o modelo Whisper da OpenAI transformou o áudio dos usuários em texto para processamento por modelos de linguagem de grande escala (LLMs), que, então, retornavam respostas faladas.

O Whisper se tornou o padrão ouro em reconhecimento de fala, processando padrões de fala complexos e sotaques em quase tempo real. Com mais de 5 milhões de downloads mensais, ele suporta dezenas de milhares de aplicações.

Agora, a aiOla afirma que o Whisper-Medusa consegue um reconhecimento e transcrição de fala ainda mais rápidos. Ao aprimorar a arquitetura do Whisper com um mecanismo de atenção múltipla, o modelo pode prever dez tokens por passagem, em vez de um, resultando em um aumento de 50% na velocidade de previsão e eficiência em tempo de execução.

aiOla Whisper-Medusa vs. OpenAI Whisper

Apesar do aumento de velocidade, o Whisper-Medusa mantém o mesmo nível de precisão do modelo Whisper original devido à sua arquitetura fundamental. Hetz declarou: “Somos os primeiros da indústria a aplicar essa abordagem a um modelo de reconhecimento automático de fala (ASR) e liberá-lo para pesquisa pública.”

“Melhorar a velocidade dos LLMs é mais fácil do que otimizar sistemas de ASR. As complexidades dos sinais de áudio contínuos e do ruído apresentam desafios únicos. Através da nossa abordagem de atenção múltipla, quase dobramos a velocidade de previsão sem sacrificar a precisão,” explicou Hetz.

Metodologia de Treinamento do Whisper-Medusa

A aiOla utilizou uma técnica de aprendizado de máquina com supervisão fraca para treinar o Whisper-Medusa. Ao congelar os componentes principais do Whisper, ela aproveitou transcrições de áudio geradas pelo próprio modelo como rótulos para treinar módulos adicionais de previsão de tokens.

Hetz mencionou que começaram com um modelo de 10 cabeças e planejam expandir para uma versão de 20 cabeças, capaz de prever 20 tokens simultaneamente, resultando em reconhecimento e transcrição ainda mais rápidos sem comprometer a precisão. “Esse método permite processar todo o áudio de fala de uma vez, reduzindo a necessidade de múltiplas passagens e aumentando a velocidade,” afirmou.

Enquanto Hetz permaneceu discreto sobre o acesso antecipado para empresas específicas, ele confirmou que casos reais de uso corporativo foram testados para validar desempenho em aplicações do mundo real. Espera-se que uma melhora nas velocidades de reconhecimento e transcrição facilite respostas mais rápidas em aplicações de fala. Imagine um assistente de IA como a Alexa fornecendo respostas em segundos.

“A indústria se beneficiará enormemente de sistemas de fala para texto em tempo real, aumentando a produtividade, reduzindo custos e acelerando a entrega de conteúdo,” concluiu Hetz.

Hedra Lança Character-1: Um Modelo Inovador de Fundamentos Focado em Vídeo

A Intel Anuncia Demissão de 15% da Força de Trabalho, Afetando Pelo Menos 15.000 Funcionários

Most people like

Belva – Redefining Communication

8.5K

Belva é um Agente de Telefone AI avançado, projetado para aprimorar a eficiência da comunicação ao gerenciar diversas tarefas de maneira integrada.

Agente Telefônico de IA AI Product Description Generator

Ivee

12.8K

No panorama digital atual, as plataformas de marketing de influência B2B surgiram como ferramentas poderosas para empresas que buscam aumentar a visibilidade e credibilidade de sua marca. Ao se associar a líderes do setor e influenciadores, as empresas podem envolver de forma eficaz seu público-alvo, construir confiança e impulsionar conversões. Este artigo explora os principais benefícios e estratégias para aproveitar as plataformas de marketing de influência B2B, elevando seus esforços de marketing e alcançando um crescimento sustentável. Descubra como essas plataformas podem transformar sua abordagem para alcançar clientes e gerar leads em um mercado competitivo.

marketing de influência Other

Wondershare Filmora

2.7M

Edite vídeos com facilidade usando nossas ferramentas intuitivas. Descubra como a edição de vídeo pode simplificar seu processo de criação e aprimorar sua narrativa. Seja você um iniciante ou um criador experiente, dominar a edição de vídeo nunca foi tão fácil.

Edição de vídeo AI Video Editor

HappyPagesAI

Transforme sua criatividade com nosso gerador de páginas para colorir com IA, projetado para criar páginas de coloração únicas e personalizadas, feitas especialmente para você. Seja você um fã de padrões intrincados ou ilustrações divertidas, nossa ferramenta inovadora permite que você libere seu talento artístico e desfrute de horas de diversão colorindo. Perfeito para crianças e adultos, este gerador é sua porta de entrada para designs personalizados que despertam a imaginação e proporcionam entretenimento sem fim.

Gerador de páginas de colorir com IA AI Art Generator

Find AI tools in YBX