aiOla Presenta un Modelo de Reconocimiento de Voz 'Multi-Head' Ultra Rápido, Superando a OpenAI Whisper

aiOla Lanza Whisper-Medusa: Un Modelo Revolucionario de Reconocimiento de Voz

Hoy, la startup israelí de inteligencia artificial aiOla presentó Whisper-Medusa, un modelo de reconocimiento de voz de código abierto que opera un 50% más rápido que el popular Whisper de OpenAI. Whisper-Medusa utiliza una innovadora arquitectura de "atención multi-cabeza", lo que le permite predecir múltiples tokens simultáneamente, mejorando significativamente su velocidad. El código y los pesos del modelo están disponibles en Hugging Face bajo una licencia MIT, apoyando tanto aplicaciones de investigación como comerciales.

Al hacer esta solución de código abierto, aiOla fomenta la innovación y la colaboración dentro de la comunidad de inteligencia artificial. "Esto puede llevar a mejoras de velocidad aún mayores a medida que desarrolladores e investigadores amplían nuestro trabajo", afirmó Gill Hetz, vicepresidente de investigación de aiOla. Estos avances podrían allanar el camino para sistemas de IA que entiendan y respondan a las consultas de los usuarios en casi tiempo real.

¿Qué Destaca a Whisper-Medusa?

Con la producción de contenidos más diversos por parte de modelos fundamentales, la importancia de un reconocimiento de voz avanzado es crítica. Esta tecnología es esencial en varios sectores, como la salud y las finanzas tecnológicas, facilitando tareas como la transcripción y potenciando sistemas de IA multimodal sofisticados. El año pasado, el modelo Whisper de OpenAI transformó el audio de los usuarios en texto para ser procesado por modelos de lenguaje grandes (LLMs), que luego devolvían respuestas habladas.

Whisper se ha convertido en el estándar de oro en reconocimiento de voz, procesando patrones de habla complejos y acentos en casi tiempo real. Con más de 5 millones de descargas mensuales, apoya decenas de miles de aplicaciones.

Ahora, aiOla afirma que Whisper-Medusa logra un reconocimiento y una transcripción de voz aún más rápidos. Al mejorar la arquitectura de Whisper con un mecanismo de atención multi-cabeza, el modelo puede predecir diez tokens en cada pase, en lugar de uno, lo que resulta en un aumento del 50% en la velocidad de predicción y eficiencia de funcionamiento.

aiOla Whisper-Medusa vs. OpenAI Whisper

A pesar del aumento en la velocidad, Whisper-Medusa mantiene el mismo nivel de precisión que el modelo Whisper original gracias a su arquitectura fundamental. Hetz declaró: "Somos los primeros en la industria en aplicar este enfoque a un modelo de reconocimiento automático de voz (ASR) y liberarlo para la investigación pública."

"Mejorar la velocidad de los LLMs es más fácil que optimizar los sistemas ASR. Las complejidades de las señales de audio continuas y el ruido presentan desafíos únicos. A través de nuestro enfoque de atención multi-cabeza, hemos casi duplicado la velocidad de predicción sin sacrificar la precisión", explicó Hetz.

Metodología de Entrenamiento para Whisper-Medusa

aiOla utilizó una técnica de aprendizaje automático de supervisión débil para entrenar Whisper-Medusa. Al congelar los componentes principales de Whisper, aprovechó las transcripciones de audio generadas por el propio modelo como etiquetas para entrenar módulos adicionales de predicción de tokens.

Hetz mencionó que comenzaron con un modelo de 10 cabezas y planean expandirse a una versión de 20 cabezas capaz de predecir 20 tokens simultáneamente, lo que resultará en un reconocimiento y una transcripción aún más rápidos sin comprometer la precisión. "Este método permite el procesamiento eficiente de audio de habla completo a la vez, reduciendo la necesidad de múltiples pasadas y mejorando la velocidad", afirmó.

Aunque Hetz fue reservado sobre el acceso anticipado para empresas específicas, confirmó que se probaron casos de uso de datos empresariales reales para validar el rendimiento en aplicaciones del mundo real. Se espera que una mejora en las velocidades de reconocimiento y transcripción facilite respuestas más rápidas en aplicaciones de voz. Imagina un asistente de IA como Alexa ofreciendo respuestas en segundos.

"La industria se beneficiará enormemente de los sistemas de voz a texto en tiempo real, aumentando la productividad, reduciendo costos y acelerando la entrega de contenido", concluyó Hetz.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles