Transformer la Reconnaissance Vocale AI : la Méthode Innovante d’aiOla pour Maîtriser le Jargon de l’Industrie

La reconnaissance vocale est un élément essentiel des systèmes d'IA multimodaux. Bien que de nombreuses entreprises soient désireuses d'adopter cette technologie, des défis demeurent, notamment en ce qui concerne l'interprétation précise du jargon spécifique à chaque secteur. aiOla, une startup israélienne innovante, a fait des progrès significatifs pour résoudre ce problème. L'entreprise a introduit une nouvelle approche visant à aider les modèles de reconnaissance vocale à mieux comprendre le vocabulaire spécialisé en fonction des secteurs.

Cette innovation augmente la précision et la réactivité des systèmes de reconnaissance vocale, les rendant plus efficaces dans des environnements d'entreprise complexes, même dans des conditions acoustiques difficiles. Dans une étude de cas préliminaire, aiOla a adapté le modèle Whisper d'OpenAI, réduisant avec succès son taux d'erreurs et améliorant la précision générale de la détection.

Le défi du jargon dans la reconnaissance vocale

Ces dernières années, les avancées en apprentissage profond ont favorisé l’émergence de systèmes de reconnaissance vocale automatique (ASR) et de transcription performants. Whisper d'OpenAI a retenu l'attention grâce à sa robustesse et à son exactitude comparables à celles d'un humain dans la reconnaissance vocale en anglais. Cependant, depuis son lancement en 2022, de nombreux utilisateurs ont noté que ses performances pouvaient être affectées dans des scénarios réels, où les environnements bruyants compliquent l'interprétation audio précise. Par exemple, décrypter des alertes de sécurité au milieu du bruit des machines ou comprendre des commandes chargées de terminologie spécialisée dans des domaines tels que la médecine ou le droit peut s'avérer difficile.

Les organisations utilisant des modèles ASR avancés, comme Whisper, cherchent souvent à adapter leurs systèmes aux besoins uniques de leur secteur. Bien que ce perfectionnement puisse améliorer les performances, il entraîne généralement des coûts élevés en termes de temps et de ressources financières.

« Le perfectionnement des modèles ASR prend des jours et des milliers de dollars — et cela, c'est si vous avez déjà les données. Sinon, collecter et étiqueter des données audio peut prendre des mois et coûter des dizaines de milliers de dollars », explique Gil Hetz, VP Recherche chez aiOla.

Pour relever ces défis, aiOla a développé une approche en deux étapes de "biais contextuel". D'abord, le modèle de détection de mots clés AdaKWS identifie le jargon spécifique à l'industrie à partir d'échantillons vocaux. Ensuite, ces mots-clés identifiés guident le décodeur ASR dans l'incorporation des termes dans le texte transcrit final, améliorant ainsi la capacité du modèle à reconnaître efficacement un langage spécialisé.

Lors des tests initiaux, aiOla a utilisé Whisper et expérimenté deux techniques pour améliorer la performance : KG-Whisper (Whisper guidé par mots clés) et KG-Whisper-PT (ajustement par invite). Les deux adaptations ont montré une performance supérieure par rapport au modèle Whisper d'origine sur divers ensembles de données, même dans des environnements acoustiques difficiles.

« Notre nouveau modèle (KG-Whisper-PT) réduit de manière significative le Taux d'Erreur de Mots (WER) et améliore la précision (score F1). Lors de tests sur un ensemble de données médical, il a atteint un score F1 de 96,58, contre 80,50 pour Whisper, et un WER de 6,15 contre 7,33 pour Whisper », déclare Hertz.

Ce qui est essentiel, c'est que cette méthode est compatible avec divers modèles ASR. Bien qu'aiOla ait utilisé Whisper, la même approche peut être appliquée aux modèles propriétaires de conversion de discours en texte, permettant aux entreprises de créer un système de reconnaissance personnalisé sans avoir besoin de reformation. Il suffit de fournir une liste de termes spécifiques à l'industrie au détecteur de mots clés.

« Ce modèle permet des capacités de reconnaissance vocale complètes qui identifient avec précision le jargon. Il nous permet de nous adapter rapidement à différents secteurs en modifiant simplement le vocabulaire sans avoir à reformer l'ensemble du système. En essence, c'est un modèle à zéro-shot, capable de prédire sans avoir vu d'exemples spécifiques lors de l'entraînement », explique Hertz.

Avantages en matière de gain de temps pour les entreprises du Fortune 500

Grâce à son adaptabilité, l'approche d'aiOla peut bénéficier à une large gamme d'industries utilisant un jargon technique, notamment l'aviation, le transport, la fabrication et la logistique. L'entreprise a commencé à déployer son modèle adaptatif auprès de clients du Fortune 500, améliorant considérablement leur efficacité dans la gestion de processus complexes basés sur le jargon.

Par exemple, un leader mondial de l'expédition et de la logistique classé dans le Fortune 50 a employé le modèle d'aiOla pour automatiser les inspections quotidiennes de camions, réduisant chaque inspection d'environ 15 minutes à moins de 60 secondes. De même, l'une des principales chaînes de supermarchés du Canada a utilisé le modèle pour surveiller les températures des produits et de la viande, ce qui entraînerait des économies annuelles de 110 000 heures, plus de 2,5 millions de dollars en économies anticipées et un retour sur investissement multiplié par 5.

aiOla a partagé ses recherches dans l'espoir d'inspirer d'autres équipes de recherche à progresser dans le domaine de l'IA. Cependant, l'entreprise ne propose pas d'accès API au modèle adapté ni ne publie ses poids pour le moment. Les entreprises peuvent accéder à cette technologie exclusivement via la suite de produits sur abonnement d'aiOla.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles