A provedora de inteligência artificial como serviço, Assembly AI, lançou seu mais recente modelo de reconhecimento de fala, o Universal-1. Treinado com mais de 12,5 milhões de horas de dados de áudio multilíngue, o Universal-1 alcança uma impressionante precisão de transcrição de fala para texto em inglês, espanhol, francês e alemão. A empresa afirma que o Universal-1 reduz em 30% as alucinações em dados de fala e em 90% o ruído ambiente, comparado ao modelo Whisper Large-v3 da OpenAI.
Em um recente post no blog, a Assembly AI descreveu o Universal-1 como um avanço significativo em sua missão de oferecer capacidades de fala para texto precisas, confiáveis e robustas em várias línguas. O modelo é eficaz no código-mix, transcrevendo diversas línguas em um único arquivo de áudio.
O Universal-1 se destaca na estimativa aprimorada de timestamps, essencial para edição de áudio e vídeo, além de análise de conversas. Ele supera seu predecessor, o Conformer-2, em 13%, apresentando melhor diferenciação de falantes e uma taxa aprimorada de erro de palavras por permutação mínima concatenada (cpWER) de 14%. Além disso, a precisão na estimativa de contagem de falantes aumentou para 71%.
O modelo também conta com inferência paralela otimizada, reduzindo significativamente o tempo de processamento para arquivos de áudio longos. O Universal-1 transcreve uma hora de áudio em apenas 21 segundos em máquinas Nvidia Tesla T4, cinco vezes mais rápido que o Whisper Large-v3, que leva 107 segundos para a mesma tarefa com um tamanho de lote menor.
Com modelos de IA de fala para texto aprimorados, os benefícios são muitos, incluindo a produção de anotações mais precisas e confiáveis, identificação de itens de ação e organização de metadados como nomes próprios, identificação de falantes e temporização. Essa melhoria beneficiará várias aplicações, desde edição de vídeo impulsionada por IA até plataformas de telemedicina que exigem a entrada precisa de notas clínicas e submissão de reivindicações.
O modelo Universal-1 já está disponível por meio da API da Assembly AI.