aiOla Lance Whisper-Medusa : Un Modèle Révolutionnaire de Reconnaissance Vocale
Aujourd'hui, la startup israélienne d'IA aiOla a dévoilé Whisper-Medusa, un modèle open-source de reconnaissance vocale qui fonctionne 50 % plus vite que le populaire Whisper d'OpenAI.
Whisper-Medusa utilise une architecture innovante d'« attention multi-têtes », lui permettant de prédire plusieurs tokens simultanément, ce qui améliore considérablement sa rapidité. Le code et les poids du modèle sont disponibles sur Hugging Face sous licence MIT, soutenant tant la recherche que les applications commerciales.
En rendant cette solution open-source, aiOla encourage l'innovation et la collaboration au sein de la communauté de l'IA. « Cela peut conduire à des améliorations de vitesse encore plus grandes à mesure que les développeurs et les chercheurs s'appuient sur notre travail, » a déclaré Gill Hetz, VP de la recherche chez aiOla. Ces avancées pourraient ouvrir la voie à des systèmes d'IA capables de comprendre et de répondre aux demandes des utilisateurs en quasi temps réel.
Qu'est-ce qui distingue Whisper-Medusa ?
Alors que les modèles fondamentaux produisent un contenu de plus en plus varié, l'importance de la reconnaissance vocale avancée demeure cruciale. Cette technologie est essentielle dans divers secteurs, tels que la santé et la fintech, facilitant des tâches comme la transcription et alimentant des systèmes d'IA multimodaux sophistiqués. L'année dernière, le modèle Whisper d'OpenAI a transformé l'audio utilisateur en texte pour un traitement par des modèles de langage de grande taille (LLMs), qui renvoyaient ensuite des réponses orales.
Whisper est devenu la référence en matière de reconnaissance vocale, traitant des schémas de discours complexes et des accents quasi en temps réel. Avec plus de 5 millions de téléchargements mensuels, il soutient des dizaines de milliers d'applications.
Désormais, aiOla affirme que Whisper-Medusa permet une reconnaissance vocale et une transcription encore plus rapides. En améliorant l'architecture de Whisper avec un mécanisme d'attention multi-têtes, le modèle peut prédire dix tokens à chaque passage, au lieu d'un, ce qui entraîne une augmentation de 50 % de la vitesse de prédiction et de l'efficacité d'exécution.
aiOla Whisper-Medusa vs. OpenAI Whisper
Malgré l'augmentation de la vitesse, Whisper-Medusa maintient le même niveau de précision que le modèle original Whisper grâce à son architecture fondamentale. Hetz a déclaré : « Nous sommes les premiers dans l'industrie à appliquer cette approche à un modèle de reconnaissance automatique de la parole (ASR) et à le rendre disponible pour la recherche publique. »
« Améliorer la vitesse des LLMs est plus facile qu'optimiser les systèmes ASR. Les complexités des signaux audio continus et du bruit présentent des défis uniques. Grâce à notre approche d'attention multi-têtes, nous avons presque doublé la vitesse de prédiction sans compromettre la précision, » a expliqué Hetz.
Méthodologie de Formation pour Whisper-Medusa
aiOla a utilisé une technique d'apprentissage automatique de supervision faible pour former Whisper-Medusa. En congelant les composants principaux de Whisper, il a exploité les transcriptions audio générées par le modèle lui-même comme étiquettes pour former des modules de prédiction de tokens supplémentaires.
Hetz a mentionné qu'ils avaient commencé avec un modèle à 10 têtes et prévoyaient d'étendre à une version à 20 têtes capable de prédire 20 tokens simultanément, entraînant une reconnaissance et une transcription encore plus rapides sans compromettre la précision. « Cette méthode permet un traitement efficace de l'audio de discours en entier, réduisant le besoin de multiples passes et améliorant la vitesse, » a-t-il déclaré.
Bien qu'Hetz soit resté discret sur un accès anticipé pour certaines entreprises, il a confirmé que des cas d'utilisation réels avaient été testés pour valider la performance dans des applications concrètes. Une amélioration des vitesses de reconnaissance et de transcription devrait faciliter des réponses plus rapides dans les applications vocales. Imaginez un assistant IA comme Alexa répondant en quelques secondes.
« L'industrie bénéficiera grandement de systèmes de transcription vocale en temps réel, augmentant la productivité, réduisant les coûts et accélérant la livraison de contenu, » a conclu Hetz.