aiOla dévoile son modèle de reconnaissance vocale 'Multi-Head' ultra-rapide, surpassant OpenAI Whisper.

Home Actualités IA aiOla dévoile son modèle de reconnaissance vocale 'Multi-Head' ultra-rapide, surpassant OpenAI Whisper.

aiOla Lance Whisper-Medusa : Un Modèle Révolutionnaire de Reconnaissance Vocale

Aujourd'hui, la startup israélienne d'IA aiOla a dévoilé Whisper-Medusa, un modèle open-source de reconnaissance vocale qui fonctionne 50 % plus vite que le populaire Whisper d'OpenAI.

Whisper-Medusa utilise une architecture innovante d'« attention multi-têtes », lui permettant de prédire plusieurs tokens simultanément, ce qui améliore considérablement sa rapidité. Le code et les poids du modèle sont disponibles sur Hugging Face sous licence MIT, soutenant tant la recherche que les applications commerciales.

En rendant cette solution open-source, aiOla encourage l'innovation et la collaboration au sein de la communauté de l'IA. « Cela peut conduire à des améliorations de vitesse encore plus grandes à mesure que les développeurs et les chercheurs s'appuient sur notre travail, » a déclaré Gill Hetz, VP de la recherche chez aiOla. Ces avancées pourraient ouvrir la voie à des systèmes d'IA capables de comprendre et de répondre aux demandes des utilisateurs en quasi temps réel.

Qu'est-ce qui distingue Whisper-Medusa ?

Alors que les modèles fondamentaux produisent un contenu de plus en plus varié, l'importance de la reconnaissance vocale avancée demeure cruciale. Cette technologie est essentielle dans divers secteurs, tels que la santé et la fintech, facilitant des tâches comme la transcription et alimentant des systèmes d'IA multimodaux sophistiqués. L'année dernière, le modèle Whisper d'OpenAI a transformé l'audio utilisateur en texte pour un traitement par des modèles de langage de grande taille (LLMs), qui renvoyaient ensuite des réponses orales.

Whisper est devenu la référence en matière de reconnaissance vocale, traitant des schémas de discours complexes et des accents quasi en temps réel. Avec plus de 5 millions de téléchargements mensuels, il soutient des dizaines de milliers d'applications.

Désormais, aiOla affirme que Whisper-Medusa permet une reconnaissance vocale et une transcription encore plus rapides. En améliorant l'architecture de Whisper avec un mécanisme d'attention multi-têtes, le modèle peut prédire dix tokens à chaque passage, au lieu d'un, ce qui entraîne une augmentation de 50 % de la vitesse de prédiction et de l'efficacité d'exécution.

aiOla Whisper-Medusa vs. OpenAI Whisper

Malgré l'augmentation de la vitesse, Whisper-Medusa maintient le même niveau de précision que le modèle original Whisper grâce à son architecture fondamentale. Hetz a déclaré : « Nous sommes les premiers dans l'industrie à appliquer cette approche à un modèle de reconnaissance automatique de la parole (ASR) et à le rendre disponible pour la recherche publique. »

« Améliorer la vitesse des LLMs est plus facile qu'optimiser les systèmes ASR. Les complexités des signaux audio continus et du bruit présentent des défis uniques. Grâce à notre approche d'attention multi-têtes, nous avons presque doublé la vitesse de prédiction sans compromettre la précision, » a expliqué Hetz.

Méthodologie de Formation pour Whisper-Medusa

aiOla a utilisé une technique d'apprentissage automatique de supervision faible pour former Whisper-Medusa. En congelant les composants principaux de Whisper, il a exploité les transcriptions audio générées par le modèle lui-même comme étiquettes pour former des modules de prédiction de tokens supplémentaires.

Hetz a mentionné qu'ils avaient commencé avec un modèle à 10 têtes et prévoyaient d'étendre à une version à 20 têtes capable de prédire 20 tokens simultanément, entraînant une reconnaissance et une transcription encore plus rapides sans compromettre la précision. « Cette méthode permet un traitement efficace de l'audio de discours en entier, réduisant le besoin de multiples passes et améliorant la vitesse, » a-t-il déclaré.

Bien qu'Hetz soit resté discret sur un accès anticipé pour certaines entreprises, il a confirmé que des cas d'utilisation réels avaient été testés pour valider la performance dans des applications concrètes. Une amélioration des vitesses de reconnaissance et de transcription devrait faciliter des réponses plus rapides dans les applications vocales. Imaginez un assistant IA comme Alexa répondant en quelques secondes.

« L'industrie bénéficiera grandement de systèmes de transcription vocale en temps réel, augmentant la productivité, réduisant les coûts et accélérant la livraison de contenu, » a conclu Hetz.

Hedra lance Character-1 : un modèle de base innovant axé sur la vidéo.

Intel annonce une réduction de 15 % de ses effectifs, touchant au moins 15 000 employés.

Most people like

Blaze

467.5K

Découvrez un outil alimenté par l'IA, conçu pour créer du contenu qui reflète parfaitement la voix de votre marque. Que vous souhaitiez engager votre public ou renforcer votre identité de marque, cette solution innovante transforme vos idées en récits captivants qui résonnent avec votre marché cible. Élevez votre stratégie de contenu dès aujourd'hui grâce à une technologie de pointe adaptée spécifiquement à vos besoins.

outil d'IA AI Content Generator

AI poem generator

25.1K

Découvrez le générateur de poésie ultime : votre outil incontournable pour créer instantanément de magnifiques poèmes ! Que vous soyez un poète en herbe ou simplement désireux d'exprimer vos pensées de manière créative, notre générateur avancé alimenté par l'IA est là pour vous aider à composer des poèmes saisissants en toute simplicité. Explorez les possibilités infinies du vers et laissez votre imagination s'envoler !

Autre AI Blog Writer

Maket

184.3K

Maket est un logiciel innovant qui révolutionne la conception architecturale grâce à l'IA générative, automatisant la création de plans d'étage et permettant l'exploration d'une grande variété de styles.

design génératif AI Design Generator

Chub

7.1M

Débloquez tout le potentiel de vos modèles linguistiques en gérant efficacement et en collaborant sur le développement des personnages. Que vous créiez des histoires interactives, conçeviez des personas uniques ou formiez une IA à comprendre des voix variées, maîtriser la gestion des personnages est essentiel pour obtenir des résultats réalistes et captivants.

Personnages AI Character

Find AI tools in YBX