O reconhecimento de voz é um componente vital dos sistemas de IA multimodal. Embora muitas empresas estejam ansiosas para adotar essa tecnologia, desafios permanecem, especialmente na interpretação precisa de jargões específicos de cada setor. A aiOla, uma startup israelense inovadora, avançou significativamente na resolução deste problema, introduzindo uma nova abordagem para ajudar modelos de reconhecimento de voz a entender melhor o vocabulário especializado de indústrias específicas.
Esse desenvolvimento aumenta a precisão e a capacidade de resposta dos sistemas de reconhecimento de voz, tornando-os mais eficazes em ambientes empresariais complexos, mesmo em condições acústicas desafiadoras. Em seu primeiro estudo de caso, a aiOla adaptou o modelo Whisper da OpenAI, reduzindo com sucesso sua taxa de erro de palavras e aprimorando a precisão geral da detecção.
O Desafio do Jargão no Reconhecimento de Voz
Nos últimos anos, os avanços em deep learning contribuíram para o surgimento de sistemas automáticos de reconhecimento de voz (ASR) e transcrição de alto desempenho. O Whisper da OpenAI ganhou destaque por sua robustez e precisão comparáveis ao nível humano em reconhecimento de fala em inglês. No entanto, desde seu lançamento em 2022, muitos notaram que o desempenho do Whisper pode ser afetado em cenários do mundo real, onde ambientes ruidosos dificultam a interpretação precisa do áudio. Decifrar alertas de segurança em meio ao ruído de máquinas pesadas ou entender comandos carregados de terminologia especializada em campos como medicina ou direito pode ser desafiador.
Organizações que utilizam modelos ASR de ponta, como o Whisper, frequentemente buscam adaptar seus sistemas para atender às necessidades únicas de suas indústrias. Embora essa adaptação possa melhorar o desempenho, geralmente exige um alto investimento em tempo e recursos financeiros. Gil Hetz, VP de Pesquisa da aiOla, explica: "A adaptação de modelos ASR leva dias e milhares de dólares - e isso se você já tiver os dados. Se não tiver, coletar e rotular dados de áudio pode levar meses e custar dezenas de milhares de dólares."
Para enfrentar esses desafios, a aiOla desenvolveu uma abordagem de "biasing contextual" em duas etapas. Primeiro, o modelo de identificação de palavras-chave AdaKWS identifica o jargão específico de cada setor em amostras de fala. Em seguida, essas palavras-chave identificadas orientam o decodificador ASR a incorporar os termos no texto transcrito final, aprimorando a capacidade do modelo em reconhecer eficientemente a linguagem especializada.
Em testes iniciais, a aiOla utilizou o Whisper e experimentou duas técnicas para melhorar o desempenho: KG-Whisper (Whisper guiado por palavras-chave) e KG-Whisper-PT (ajuste de prompts). Ambas as adaptações mostraram desempenho superior em comparação com o modelo Whisper original em diversos conjuntos de dados, mesmo em ambientes acústicos desafiadores. "Nosso novo modelo (KG-Whisper-PT) reduz significativamente a Taxa de Erro de Palavras (WER) e aumenta a precisão (pontuação F1). Em testes com um conjunto de dados médicos, alcançou uma pontuação F1 de 96,58, em comparação com 80,50 do Whisper, e uma WER de 6,15 contra 7,33 do Whisper," afirma Hertz.
É importante ressaltar que esse método é compatível com diversos modelos ASR. Embora a aiOla tenha utilizado o Whisper, a mesma abordagem pode ser aplicada aos modelos proprietários de texto para fala da Meta e outros, permitindo que as empresas criem um sistema de reconhecimento personalizado sem a necessidade de re-treinamento. Basta fornecer uma lista de termos específicos da indústria para o identificador de palavras-chave.
"Esse modelo possibilita capacidades completas de ASR que identificam com precisão jargões. Permite que nos adaptemos rapidamente a diferentes indústrias, alterando apenas o vocabulário do jargão, sem ter que re-treinar todo o sistema. Essencialmente, é um modelo zero-shot, capaz de prever sem ter visto exemplos específicos durante o treinamento," explica Hertz.
Benefícios de Economia de Tempo para Empresas da Fortune 500
Com sua adaptabilidade, a abordagem da aiOla pode beneficiar uma ampla gama de indústrias com jargão técnico, incluindo aviação, transporte, manufatura e logística. A empresa começou a implantar seu modelo adaptativo em clientes da Fortune 500, melhorando significativamente sua eficiência na gestão de processos repletos de jargão.
Por exemplo, uma empresa global de transporte e logística da Fortune 50 utilizou o modelo da aiOla para automatizar inspeções diárias de caminhões, reduzindo cada inspeção de cerca de 15 minutos para menos de 60 segundos. Da mesma forma, uma das principais redes de supermercados do Canadá utilizou o modelo para monitorar temperaturas de produtos e carnes, resultando em uma projeção de economia anual de 110.000 horas, mais de US$ 2,5 milhões em economia esperada e um ROI de 5X.
A aiOla compartilhou suas pesquisas na esperança de inspirar novos avanços em IA por outras equipes de pesquisa. No entanto, a empresa não está oferecendo acesso API ao modelo adaptado ou liberando seus pesos neste momento. As empresas podem acessar essa tecnologia exclusivamente através da suíte de produtos por assinatura da aiOla.