Transformando la Inteligencia Artificial de Reconocimiento de Voz: el Método Innovador de aiOla para Dominar el Jerga Industrial

El reconocimiento de voz es un componente fundamental de los sistemas de inteligencia artificial multimodal. A pesar del interés de muchas empresas por adoptar esta tecnología, persisten desafíos, especialmente en la interpretación precisa del lenguaje específico de cada industria. aiOla, una innovadora startup israelí, ha avanzado notablemente en este ámbito. La empresa ha presentado un nuevo enfoque diseñado para ayudar a los modelos de reconocimiento de voz a comprender mejor el vocabulario especializado adaptado a sectores concretos.

Este desarrollo aumenta la precisión y la capacidad de respuesta de los sistemas de reconocimiento de voz, haciéndolos más efectivos en entornos empresariales complejos, incluso en condiciones acústicas desafiantes. En su estudio de caso inicial, aiOla adaptó el modelo Whisper de OpenAI, logrando reducir su tasa de errores y mejorar la precisión global de detección.

El Desafío del Jerga en el Reconocimiento de Voz

En los últimos años, los avances en aprendizaje profundo han permitido el surgimiento de sistemas automáticos de reconocimiento de voz (ASR) y transcripción de alto rendimiento. Whisper de OpenAI ha llamado la atención por su robustez y precisión comparables a la humana en el reconocimiento de voz en inglés. Sin embargo, desde su lanzamiento en 2022, muchos han notado que el rendimiento de Whisper puede verse afectado en escenarios del mundo real, donde entornos ruidosos complican la interpretación precisa del audio. Por ejemplo, descifrar alertas de seguridad en medio del ruido de maquinaria pesada o entender comandos con terminología especializada en campos como la medicina o el derecho puede ser un reto.

Las organizaciones que utilizan modelos ASR de vanguardia, como Whisper, a menudo intentan adaptar sus sistemas para satisfacer necesidades específicas del sector. Aunque este ajuste puede mejorar el rendimiento, generalmente conlleva altos costos en tiempo y recursos financieros. “Ajustar modelos ASR toma días y miles de dólares — y eso si ya tienes los datos. Si no, recolectar y etiquetar datos de audio puede llevar meses y costar decenas de miles de dólares,” comenta Gil Hetz, VP de Investigación en aiOla.

Para abordar estos desafíos, aiOla ha desarrollado un enfoque de "sesgo contextual" en dos pasos. Primero, el modelo de detección de palabras clave AdaKWS identifica la jerga específica de la industria a partir de muestras de voz. Luego, estas palabras clave guían al decodificador ASR para incorporar los términos en el texto transcrito final, mejorando la capacidad del modelo para reconocer eficazmente el lenguaje especializado.

En pruebas iniciales, aiOla empleó Whisper y experimentó con dos técnicas para mejorar el rendimiento: KG-Whisper (Whisper guiado por palabras clave) y KG-Whisper-PT (ajuste de indicaciones). Ambas adaptaciones mostraron una mejora en el rendimiento en comparación con el modelo original de Whisper en diversos conjuntos de datos, incluso en entornos acústicos difíciles.

“Nuestro nuevo modelo (KG-Whisper-PT) reduce significativamente la tasa de error de palabras (WER) y mejora la precisión (puntaje F1). En pruebas con un conjunto de datos médico, logró un puntaje F1 de 96.58, comparado con el 80.50 de Whisper, y un WER de 6.15 versus 7.33 de Whisper,” afirma Hertz.

Este método es compatible con varios modelos ASR. Mientras aiOla utilizó Whisper, el mismo enfoque se puede aplicar a MMS de Meta y otros modelos de texto a voz, permitiendo a las empresas crear un sistema de reconocimiento personalizado sin necesidad de reentrenamiento. Simplemente proporcionando una lista de términos específicos de la industria al detector de palabras clave es suficiente.

“Este modelo permite capacidades completas de ASR que identifican con precisión la jerga. Nos permite adaptarnos rápidamente a distintas industrias al modificar únicamente el vocabulario de jerga sin reentrenar todo el sistema. Es esencialmente un modelo de cero disparos, capaz de predecir sin haber visto ejemplos específicos durante el entrenamiento,” explica Hertz.

Beneficios de Ahorro de Tiempo para Empresas Fortune 500

Gracias a su adaptabilidad, el enfoque de aiOla puede beneficiar a una amplia gama de industrias con jerga técnica, incluyendo aviación, transporte, manufactura y logística. La empresa ha comenzado a implementar su modelo adaptativo con clientes Fortune 500, mejorando significativamente su eficiencia en la gestión de procesos complejos por su terminología.

Por ejemplo, un líder global en envíos y logística de Fortune 50 utilizó el modelo de aiOla para automatizar inspecciones diarias de camiones, reduciendo cada inspección de unos 15 minutos a menos de 60 segundos. De manera similar, una de las principales cadenas de supermercados de Canadá utilizó el modelo para monitorear temperaturas de productos y carnes, lo que lleva a un ahorro proyectado anual de 110,000 horas, más de 2.5 millones de dólares en ahorros anticipados y un retorno de inversión de 5X.

aiOla ha compartido su investigación con la esperanza de inspirar avances futuros en inteligencia artificial por otros equipos de investigación. Sin embargo, en este momento, la empresa no ofrece acceso a API del modelo adaptado ni libera sus pesos. Las empresas pueden acceder a esta tecnología exclusivamente a través de la suite de productos basada en suscripción de aiOla.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles