OpenAI Whisper v3: Soluciones Mejoradas de Reconocimiento de Voz para Aplicaciones Empresariales

Con un notable avance en la tecnología de reconocimiento de voz, Whisper v3 de OpenAI mejora significativamente la comprensión del lenguaje y reduce las tasas de error, basándose en unas impresionantes cinco millones de horas de datos de entrenamiento. Este innovador modelo de código abierto está diseñado para empresas que desean mejorar sus experiencias de atención al cliente y más allá. Presentado recientemente en OpenAI DevDay, Whisper v3 muestra un rendimiento mejorado en múltiples idiomas, destacándose por la introducción de un token de lenguaje dedicado para el cantonés.

Lanzado originalmente en septiembre de 2022, Whisper ha demostrado su utilidad en la conversión de fragmentos de audio a texto, ofreciendo funcionalidades para la traducción de voz, identificación de idiomas y detección de actividad vocal, convirtiéndose en una excelente opción para asistentes de voz. Con Whisper, las empresas pueden transcribir fácilmente las llamadas de los clientes o crear versiones textuales de contenido de audio. La integración de Whisper con los avanzados modelos de generación de texto de OpenAI, como el nuevo GPT-4 Turbo, abre oportunidades para desarrollar aplicaciones duales potentes que combinan reconocimiento de voz y generación de texto de manera fluida.

Romain Huet, jefe de experiencia de desarrollador de OpenAI, demostró el potencial de estas integraciones. Mediante el uso de Whisper para transcribir entradas de voz a texto y emparejándolo con el modelo GPT-4 Turbo, mostró la creación de un asistente inteligente capaz de hablar, gracias también a la nueva API de Texto a voz.

Whisper v3 se destaca no solo por el volumen de datos sobre el que ha sido entrenado—cinco millones de horas, un salto considerable desde las 680,000 horas de su predecesor—sino también por sus sofisticados métodos de entrenamiento. Aproximadamente un millón de horas de estos datos de audio fueron etiquetados débilmente, lo que solo indicaba la presencia de sonido, mientras que cuatro millones de horas fueron etiquetadas de manera pseudo a través de técnicas de modelado predictivo.

El modelo utiliza una arquitectura Transformer, que procesa secuencias de tokens que representan datos de audio, decodificándolos de manera efectiva para derivar salidas de texto significativas. En esencia, descompone la entrada de audio en piezas manejables, permitiendo determinar con precisión el contenido hablado.

Para satisfacer diversas necesidades de aplicación, Whisper v3 está disponible en múltiples tamaños. El modelo más pequeño, Tiny, consta de 39 millones de parámetros y requiere aproximadamente 1 GB de VRAM para funcionar. El modelo base contiene 74 millones de parámetros y cuenta con una velocidad de procesamiento aproximadamente 16 veces más rápida que versiones anteriores. La versión más grande, denominada Large, presenta una asombrosa cantidad de 1.55 mil millones de parámetros y necesita alrededor de 10 GB de VRAM para su implementación.

Pruebas exhaustivas en benchmarks de audio como Common Voice 15 y Fleurs indican que Whisper v3 logra tasas de error significativamente más bajas en comparación con versiones anteriores lanzadas en diciembre de 2022. El CEO de OpenAI, Sam Altman, expresó confianza en el nuevo Whisper durante su discurso, proclamando: “Creemos que realmente te va a gustar”.

¿Cómo acceder a Whisper v3?

Whisper v3 está disponible de forma abierta a través de plataformas como Hugging Face o GitHub, ofreciendo oportunidades para su uso comercial bajo la licencia MIT. Esto permite a las empresas implementar Whisper v3, siempre que cumplan con las condiciones específicas descritas en la licencia, incluyendo los avisos de derechos de autor y permisos necesarios en todas las versiones distribuidas.

Es importante señalar que, aunque la licencia permite un uso amplio, también se proporciona sin garantías y limita la responsabilidad para los autores o titulares de derechos de autor en relación con cualquier problema que surja de su implementación. Aunque Whisper es de código abierto, OpenAI ha anunciado planes para respaldar la última versión de su modelo de reconocimiento automático de voz a través de su API en un futuro cercano.

Si bien Whisper v3 representa un avance significativo en rendimiento, OpenAI reconoce que su precisión puede disminuir en idiomas con datos de entrenamiento limitados. Además, persisten desafíos en términos de acentos y dialectos variables, que pueden contribuir a un aumento en las tasas de error de palabras.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles