La capacidad de convertir palabras habladas en texto frecuentemente se subestima, especialmente con el rendimiento rápido y preciso del nuevo modelo AdaKWS de aiOla, una startup tecnológica israelí fundada en 2020, especializada en el reconocimiento de voz.
AdaKWS mejora el modelo de conversión de voz a texto Whisper AI de OpenAI, aumentando la precisión en la detección de palabras clave en un 6.2% en 16 idiomas, y más del 16% solo para el inglés. Alcanzando una notable precisión del 94.6% en la identificación de palabras clave, supera el 88.4% de Whisper, según métricas de aiOla. AdaKWS admite transcripción en casi tiempo real en 100 idiomas.
Aunque estas estadísticas pueden parecer modestas al principio, representan un avance significativo del percentil 80 al 90 en precisión. Esta mejora transforma la tecnología de aplicaciones de nicho a casos de uso más amplios, incluso en sectores altamente regulados como la salud y la seguridad alimentaria.
Es importante destacar que AdaKWS es aproximadamente 160 veces más rápido transcribiendo texto que el modelo Whisper-Large V2, según datos de aiOla. "La capacidad de identificar palabras clave permite la automatización de procesos cotidianos en diversas industrias, desde la presentación de informes sobre daños en paquetes hasta la realización de inspecciones de seguridad en plantas alimentarias, transformando el habla en acción," afirmó Amir Haramaty, CEO y cofundador de aiOla.
Aplicaciones Diversas en Empresas
Si bien es fácil asociar la inteligencia artificial de voz a texto con tareas como la transcripción de llamadas de atención al cliente, la tecnología de aiOla también avanza en áreas menos convencionales. En una demostración mediática, Haramaty mostró la capacidad del sistema en un entorno de salud. Un expositor de tecnología en salud leyó métricas de equipos de monitoreo de pacientes y el modelo AdaKWS completó un formulario de texto complejo en segundos, eliminando la necesidad de entrada manual.
Además, aiOla ha destacado su aplicación en el monitoreo de temperaturas de refrigeradores en supermercados. Al permitir que los monitores humanos informen verbalmente las lecturas, el sistema ahorra al cliente más de 110,000 horas anuales que de otro modo se gastarían en la entrada manual de datos.
El potencial de AdaKWS ha captado la atención de líderes de la industria; Haramaty mencionó que recibió una llamada del CEO de Oracle, Larry Ellison, quien expresó interés en aplicar la tecnología para registros de salud.
Cómo Funciona AdaKWS
AdaKWS emplea un método de identificación de palabras clave de vanguardia que se integra sin problemas en los flujos de trabajo empresariales, permitiendo la automatización a través de comandos hablados. Funciona como un algoritmo de aprendizaje automático que mejora los modelos de voz a texto existentes, como Whisper de OpenAI, entrelazándose entre el encoder del modelo —responsable de interpretar las palabras habladas— y el decoder, que convierte el audio en texto.
“Nuestra prioridad es la optimización,” explicó Joseph Keshet, científico jefe de aiOla.
A diferencia de los modelos convencionales que requieren una extensa reentrenamiento para nuevas palabras clave, AdaKWS se adapta rápidamente para manejar más de 100 idiomas y dialectos. Esta adaptabilidad lo convierte en una opción ideal para entornos empresariales.
"Las terminologías específicas de la industria son prevalentes y pueden dominar la comunicación,” observó Haramaty. Keshet agregó, “Nuestro sistema está entrenado para asegurar precisión con esas palabras clave, representadas dentro de un espacio latente que generaliza efectivamente a través de idiomas."
AdaKWS es especialmente beneficioso para organizaciones donde ocurren interacciones multilingües, ya que puede personalizarse rápidamente para la jerga específica de una industria. Los usuarios pueden enviar listas de palabras clave para que el modelo las aprenda de forma independiente, detectando términos incluso sin exposición previa a las versiones habladas.
El modelo puede estar listo para usar en cuestión de horas, aprendiendo nuevos idiomas, procesos y palabras clave rápidamente.
Una prueba de referencia en 16 idiomas demostró que AdaKWS no solo superó la precisión de Whisper, sino que también manejó términos complejos de manera eficiente utilizando menos recursos computacionales. La investigación subyacente fue publicada en un artículo científico en septiembre de 2023.
Mejorando las Operaciones Empresariales
A medida que las empresas buscan soluciones eficientes y confiables para gestionar datos complejos y tareas de comunicación, AdaKWS de aiOla representa una oportunidad significativa para optimizar operaciones y reducir costos. La tecnología está disponible a través de aplicaciones web y móviles, operando en un modelo de suscripción como servicio (SaaS) basado en el usuario y el caso de uso.
Los avances de aiOla en la inteligencia artificial de voz no solo establecen un nuevo estándar de la industria, sino que también allanan el camino para innovaciones que mejoran la integración de la IA en los procesos empresariales cotidianos.
“Disfruto la disrupción, pero me he dado cuenta de que la mayoría de las personas prefieren no ser interrumpidas,” concluyó Haramaty, enfatizando que AdaKWS tiene como objetivo aumentar y mejorar las operaciones empresariales existentes, en lugar de reemplazarlas.