A capacidade de converter palavras faladas em texto é frequentemente subestimada, especialmente com o desempenho rápido e preciso do novo modelo AdaKWS da aiOla, uma startup de tecnologia israelense fundada em 2020, especializada em reconhecimento de fala.
O AdaKWS aprimora o modelo de transcrição de fala para texto Whisper AI da OpenAI, aumentando a precisão na detecção de palavras-chave em 6,2% em 16 idiomas e mais de 16% apenas para o inglês. Com uma impressionante taxa de acerto de 94,6% na identificação de palavras-chave, ele supera os 88,4% do Whisper, de acordo com métricas da aiOla. O AdaKWS suporta transcrições em tempo quase real em 100 idiomas.
Embora essas estatísticas possam parecer modestas à primeira vista, elas representam um salto significativo do percentil 80 para o 90 em precisão. Essa melhoria transforma a tecnologia de aplicações nichadas para casos de uso mais amplos, mesmo em setores altamente regulamentados, como saúde e segurança alimentar.
Importante destacar que o AdaKWS é aproximadamente 160 vezes mais rápido na transcrição de texto do que o modelo Whisper-Large V2, segundo dados da aiOla.
“A capacidade de identificar palavras-chave possibilita a automação de processos diários em diversas indústrias, desde a elaboração de relatórios de danos a pacotes até a realização de inspeções de segurança em fábricas de alimentos, transformando a fala em ação”, afirmou Amir Haramaty, CEO e cofundador da aiOla.
Aplicações Empresariais Diversificadas
Embora seja fácil associar a IA de fala para texto a tarefas como a transcrição de chamadas de atendimento ao cliente, a tecnologia da aiOla está avançando em áreas menos convencionais. Em uma demonstração na mídia, Haramaty apresentou a capacidade do sistema em um ambiente de saúde. Um palestrante do setor de tecnologia em saúde leu métricas de equipamentos de monitoramento de pacientes, e o modelo AdaKWS preencheu automaticamente um formulário de texto complexo em segundos, eliminando a necessidade de entrada manual.
Além disso, a aiOla destacou sua aplicação no monitoramento de temperaturas de refrigeradores de supermercados. Ao permitir que monitores humanos relatem verbalmente as leituras, o sistema economiza mais de 110.000 horas anuais que seriam gastas com a inserção manual de dados.
O potencial do AdaKWS atraiu a atenção de líderes do setor; Haramaty mencionou que recebeu uma ligação do CEO da Oracle, Larry Ellison, que expressou interesse em aplicar a tecnologia para registros de saúde.
Como Funciona o AdaKWS
O AdaKWS utiliza um método avançado de identificação de palavras-chave que se integra perfeitamente aos fluxos de trabalho empresariais, permitindo a automação por meio de comandos falados. Atua como um algoritmo de aprendizado de máquina que aprimora os modelos existentes de fala para texto, como o Whisper da OpenAI, intercalando-se entre o codificador do modelo—responsável pela interpretação das palavras faladas—e o decodificador, que transforma áudio em texto.
“Nossa prioridade é a otimização”, explicou Joseph Keshet, cientista chefe da aiOla.
Diferentemente dos modelos convencionais que exigem extensivo re-treinamento para novas palavras-chave, o AdaKWS se adapta rapidamente a mais de 100 idiomas e dialetos. Essa adaptabilidade o torna ideal para ambientes empresariais.
“A terminologia específica da indústria é prevalente e pode dominar a comunicação”, observou Haramaty. Keshet acrescentou: “Nosso sistema é treinado para garantir precisão para essas palavras-chave, representadas dentro de um espaço latente que se generaliza efetivamente entre idiomas.”
O AdaKWS é particularmente benéfico para organizações onde ocorrem interações multilíngues, pois pode ser facilmente ajustado ao jargão específico da indústria. Os usuários podem enviar listas de palavras-chave para o modelo aprender de forma independente, detectando termos mesmo sem exposição anterior às versões faladas.
O modelo pode estar pronto para uso em poucas horas, aprendendo rapidamente novos idiomas, processos e palavras-chave. Um teste de benchmark em 16 idiomas demonstrou que o AdaKWS não apenas superou a precisão do Whisper, mas também gerenciou termos complexos de forma eficiente utilizando menos recursos computacionais. A pesquisa subjacente foi publicada em um artigo científico em setembro de 2023.
Aprimorando as Operações Empresariais
À medida que as empresas buscam soluções eficientes e confiáveis para gerenciar dados complexos e tarefas de comunicação, o AdaKWS da aiOla representa uma oportunidade significativa de otimizar operações e reduzir custos. A tecnologia está disponível por meio de aplicações web e mobile, operando em um modelo de software como serviço (SaaS) baseado em usuários e casos de uso.
Os avanços da aiOla na IA de fala não apenas estabelecem um novo padrão de referência na indústria, mas também pavimentam o caminho para inovações que aprimoram a integração da IA nos processos diários de negócios.
“Eu aprecio a disrupção, mas percebi que a maioria das pessoas prefere não ser incomodada”, concluiu Haramaty, enfatizando que o AdaKWS visa aumentar e melhorar as operações empresariais existentes, em vez de substituí-las.