El proveedor de IA como servicio Assembly AI ha presentado su último modelo de reconocimiento de voz, Universal-1. Entrenado con más de 12.5 millones de horas de datos de audio multilingüe, Universal-1 logra una impresionante precisión de conversión de voz a texto en inglés, español, francés y alemán. La empresa asegura que Universal-1 reduce las alucinaciones en un 30% en datos de voz y en un 90% en ruido ambiental en comparación con el modelo Whisper Large-v3 de OpenAI.
En una entrada reciente de su blog, Assembly AI describió Universal-1 como un avance significativo en su objetivo de ofrecer capacidades de conversión de voz a texto precisas, confiables y robustas en múltiples idiomas. El modelo puede cambiar de idioma de manera efectiva, transcribiendo varios lenguajes dentro de un solo archivo de audio.
Universal-1 destaca en la estimación mejorada de marcas de tiempo, algo crucial para la edición de audio y video, así como para el análisis de conversaciones. Supera a su predecesor, Conformer-2, en un 13%, mostrando una mejor diarización de hablantes y una tasa de error de palabra por permutación mínima concatenada (cpWER) mejorada del 14%. Además, la precisión en la estimación del número de hablantes ha aumentado al 71%.
El modelo también cuenta con inferencia paralela optimizada, lo que reduce considerablemente el tiempo de procesamiento de archivos de audio largos. Universal-1 transcribe una hora de audio en solo 21 segundos en máquinas Nvidia Tesla T4, cinco veces más rápido que Whisper Large-v3, que tarda 107 segundos para realizar la misma tarea con un tamaño de lote menor.
Los modelos de IA para conversión de voz a texto mejorados ofrecen numerosos beneficios, como producir notas más precisas y confiables, identificar tareas y clasificar metadatos como nombres propios, identificación de hablantes y tiempos. Esta mejora beneficiará a diversas aplicaciones, desde la edición de video impulsada por IA hasta plataformas de telemedicina que requieren una entrada precisa de notas clínicas y envío de reclamaciones.
El modelo Universal-1 ya está disponible a través de la API de Assembly AI.