Assembly AI dévoile le modèle Universal-1, affichant 30 % de moins de hallucinations par rapport à Whisper.

Le fournisseur de services d'IA Assembly AI a lancé son dernier modèle de reconnaissance vocale, Universal-1. Entraîné sur plus de 12,5 millions d'heures de données audio multilingues, Universal-1 atteint une précision impressionnante de transcription voix-texte en anglais, espagnol, français et allemand. L'entreprise affirme qu'Universal-1 réduit les hallucinations de 30 % sur les données vocales et de 90 % sur le bruit ambiant par rapport au modèle Whisper Large-v3 d'OpenAI.

Dans un récent article de blog, Assembly AI a décrit Universal-1 comme une avancée majeure dans leur objectif de fournir des capacités de transcription voix-texte précises, fiables et robustes dans plusieurs langues. Le modèle gère efficacement le passage d'une langue à l'autre, transcrivant plusieurs langues au sein d'un même fichier audio.

Universal-1 se distingue également par une amélioration de l'estimation des horodatages, essentielle pour le montage audio et vidéo ainsi que pour l'analyse des conversations. Il surpasse son prédécesseur, Conformer-2, de 13 %, grâce à une meilleure diarisation des locuteurs et un taux d'erreur de mot à permutation minimum concaténée (cpWER) optimisé de 14 %. De plus, la précision de l'estimation du nombre de locuteurs a atteint 71 %.

Le modèle offre également une inférence parallèle optimisée, réduisant considérablement le temps de traitement des fichiers audio longs. Universal-1 transcrit une heure d'audio en seulement 21 secondes sur des machines Nvidia Tesla T4, soit cinq fois plus vite que Whisper Large-v3, qui prend 107 secondes pour la même tâche avec une taille de lot plus petite.

Les modèles d'IA avancés en transcription voix-texte offrent de nombreux avantages, tels que la production de notes plus précises et fiables, l'identification d'éléments à actionner et le tri de métadonnées comme les noms propres, l'identification des locuteurs et le timing. Cette amélioration bénéficiera à diverses applications, allant de l'édition vidéo alimentée par l'IA aux plateformes de télésanté nécessitant une saisie précise des notes cliniques et la soumission de demandes.

Le modèle Universal-1 est désormais accessible via l'API d'Assembly AI.

Most people like

Find AI tools in YBX