Avec une avancée remarquable dans la technologie de reconnaissance vocale, Whisper v3 d'OpenAI améliore considérablement la compréhension des langues et réduit les taux d'erreur, s'appuyant sur un impressionnant ensemble de cinq millions d'heures de données d'entraînement. Ce modèle open-source innovant est conçu pour les entreprises cherchant à rehausser leurs expériences de service client et bien plus encore. Dévoilé récemment lors de l'OpenAI DevDay, Whisper v3 montre des performances améliorées dans plusieurs langues, introduisant notamment un token linguistique dédié au cantonais.
Lancé à l'origine en septembre 2022, Whisper a prouvé son utilité dans la conversion d'extraits audio en texte, offrant des fonctionnalités de traduction vocale, d’identification de langue et de détection d'activité vocale, ce qui en fait un choix idéal pour les assistants vocaux. Grâce à Whisper, les entreprises peuvent facilement transcrire les appels clients ou créer des versions textuelles de contenus audio. L'intégration de Whisper avec les modèles de génération de texte avancés d'OpenAI, comme le nouveau GPT-4 Turbo, ouvre la voie à des applications puissantes et duales qui combinent reconnaissance vocale et génération de texte de manière fluide.
Romain Huet, responsable de l'expérience développeur chez OpenAI, a démontré le potentiel de ces intégrations. En utilisant Whisper pour transcrire des entrées vocales en texte et en l'associant au modèle GPT-4 Turbo, il a présenté la création d'un assistant intelligent capable de parler, grâce également à la nouvelle API de synthèse vocale.
Whisper v3 se distingue non seulement par le volume de données sur lequel il a été entraîné—cinq millions d'heures, un bond substantiel par rapport aux 680 000 heures de son prédécesseur—mais aussi par ses méthodes d'entraînement sophistiquées. Environ un million d'heures de ces données audio ont été faiblement étiquetées, indiquant seulement la présence de son, tandis que quatre millions d'heures ont été pseudo-étiquetées grâce à des techniques de modélisation prédictive.
Le modèle utilise une architecture Transformer, qui traite des séquences de tokens représentant des données audio, les décodant efficacement pour en déduire des sorties textuelles significatives. Il décompose les entrées audio en éléments gérables, lui permettant de déterminer avec précision le contenu parlé.
Pour répondre à des besoins d'application variés, Whisper v3 est disponible en plusieurs tailles. Le modèle le plus petit, Tiny, comprend 39 millions de paramètres et nécessite environ 1 Go de VRAM pour fonctionner. Le modèle de base contient 74 millions de paramètres et affiche une vitesse de traitement environ 16 fois plus rapide que les versions précédentes. La version la plus grande, nommée Large, comporte un impressionnant 1,55 milliard de paramètres et nécessite environ 10 Go de VRAM pour son déploiement.
Des tests approfondis sur des benchmarks audio tels que Common Voice 15 et Fleurs indiquent que Whisper v3 atteint des taux d'erreur considérablement plus bas par rapport aux versions antérieures publiées en décembre 2022. Le PDG d'OpenAI, Sam Altman, a exprimé sa confiance dans le nouveau Whisper lors de son discours d'ouverture, déclarant : « Nous pensons que vous allez vraiment l'apprécier. »
Comment accéder à Whisper v3 ?
Whisper v3 est accessible librement via des plateformes telles que Hugging Face ou GitHub, offrant des opportunités d'utilisation commerciale sous la licence MIT. Cela permet aux entreprises de mettre en œuvre Whisper v3, sous réserve de respecter certaines conditions précisées dans la licence, y compris la nécessité d'inclure les mentions de droits d'auteur et de permission dans toutes les versions distribuées.
Il est important de noter que bien que la licence permette une utilisation large, elle ne comporte aucune garantie et limite la responsabilité des auteurs ou titulaires de droits d'auteur concernant d'éventuels problèmes découlant de son application. Bien que Whisper soit open-source, OpenAI a annoncé des plans pour soutenir la dernière version de son modèle de reconnaissance vocale automatique via son API dans un avenir proche.
Bien que Whisper v3 marque un saut significatif en performance, OpenAI reconnaît que son exactitude peut diminuer dans les langues avec des données d'entraînement limitées. De plus, des défis persistent en ce qui concerne les accents et les dialectes variés, ce qui peut contribuer à un taux d'erreur de mots accru.