La capacité de convertir des mots prononcés en texte est souvent sous-estimée, surtout avec la rapidité et la précision du nouveau modèle AdaKWS d'aiOla, une startup technologique israélienne fondée en 2020 spécialisée dans la reconnaissance vocale.
AdaKWS améliore le modèle de transcription OpenAI Whisper AI, augmentant la précision de détection des mots-clés de 6,2 % dans 16 langues, et de plus de 16 % pour l'anglais seul. Avec une remarquable précision de 94,6 % dans la détection des mots-clés, AdaKWS surpasse les 88,4 % de Whisper, selon les métriques d'aiOla. Ce modèle prend en charge la transcription quasi en temps réel dans 100 langues.
Bien que ces chiffres puissent sembler modestes au premier abord, ils représentent un bond significatif de l'intervalle de précision de 80 à 90 %. Cette avancée permet d'élargir les applications de la technologie, même dans des secteurs fortement réglementés comme la santé et la sécurité alimentaire. De plus, AdaKWS est environ 160 fois plus rapide pour la transcription que le modèle Whisper-Large V2, selon les données d'aiOla.
« La possibilité de détecter des mots-clés permet d'automatiser les processus quotidiens dans divers secteurs, de la déclaration de dommages sur des colis à la réalisation d'inspections de sécurité dans les usines alimentaires, transformant la parole en action », a déclaré Amir Haramaty, PDG et co-fondateur d'aiOla.
Applications Entreprises Diversifiées
Bien qu'il soit facile d'associer l'IA de transcription vocale à des tâches comme la retranscription d'appels de service client, la technologie d'aiOla progresse aussi dans des domaines moins conventionnels. Lors d'une démonstration médiatique, Haramaty a illustré les capacités du système dans un cadre de santé. Un intervenant en technologie de la santé a lu des données provenant d'équipements de suivi des patients, et le modèle AdaKWS a automatiquement complété un formulaire complexe en quelques secondes, éliminant ainsi le besoin de saisie manuelle.
De plus, aiOla a mis en avant son application dans le suivi des températures des réfrigérateurs de supermarché. En permettant aux contrôleurs humains de communiquer verbalement les relevés, le système fait économiser plus de 110 000 heures par an au client, horaires qui auraient autrement été consacrées à la saisie manuelle de données.
Le potentiel d'AdaKWS a attiré l'attention des dirigeants du secteur ; Haramaty a mentionné avoir reçu un appel du PDG d'Oracle, Larry Ellison, exprimant son intérêt pour l'application de cette technologie aux dossiers de santé.
Comment fonctionne la transcription vocale AdaKWS
AdaKWS utilise une méthode de détection des mots-clés à la pointe de la technologie, s'intégrant facilement dans les flux de travail des entreprises et permettant l'automatisation via des commandes vocales. Il opère comme un algorithme d'apprentissage automatique qui améliore les modèles de transcription vocale existants comme Whisper d'OpenAI, se positionnant entre l'encodeur du modèle, qui interprète les mots prononcés, et le décodeur, qui convertit l'audio en texte.
« Notre axe principal est l'optimisation », a expliqué Joseph Keshet, scientifique en chef d'aiOla. Contrairement aux modèles conventionnels nécessitant une réentraînement approfondi pour de nouveaux mots-clés, AdaKWS s'adapte rapidement pour intégrer plus de 100 langues et dialectes. Cette flexibilité le rend idéal pour les environnements d'entreprise.
« Terminologie spécifique à l'industrie est omniprésente et peut dominer la communication », a noté Haramaty. Keshet a ajouté : « Notre système est formé pour garantir la précision de ces mots-clés, représentés dans un espace latent qui généralise efficacement à travers les langues. »
AdaKWS est particulièrement bénéfique pour les organisations où des interactions multilingues se produisent, car il peut être rapidement ajusté au jargon spécifique d'une industrie. Les utilisateurs peuvent soumettre des listes de mots-clés pour que le modèle apprenne indépendamment, détectant des termes même sans exposition préalable aux versions parlées.
Le modèle peut être opérationnel en quelques heures, apprenant rapidement de nouvelles langues, processus et mots-clés. Un test de référence mené sur 16 langues a montré qu'AdaKWS dépassait non seulement la précision de Whisper, mais gérait aussi des termes complexes tout en utilisant moins de ressources computationnelles. La recherche sous-jacente a été publiée dans un article scientifique en septembre 2023.
Amélioration des Opérations Commerciales
Alors que les entreprises cherchent de plus en plus des solutions efficaces et fiables pour gérer des tâches complexes de données et de communication, AdaKWS d'aiOla représente une opportunité significative pour rationaliser les opérations et réduire les coûts. La technologie est accessible via des applications web et mobiles, fonctionnant sur un modèle d'abonnement SaaS basé sur l'utilisateur et le cas d'utilisation.
Les avancées d'aiOla en matière d'IA vocale établissent non seulement une nouvelle référence dans l'industrie, mais ouvrent également la voie à des innovations améliorant l'intégration de l'IA dans les processus commerciaux quotidiens.
« J'apprécie la disruption, mais j'ai compris que la plupart des gens préfèrent ne pas être dérangés », a conclu Haramaty, soulignant qu'AdaKWS vise à compléter et à améliorer les opérations commerciales existantes plutôt qu'à les remplacer.