Der AI-as-a-Service-Anbieter Assembly AI hat sein neuestes Spracherkennungsmodell, Universal-1, vorgestellt. Trainiert mit über 12,5 Millionen Stunden mehrsprachiger Audiodaten erreicht Universal-1 eine beeindruckende Sprach-zu-Text-Genauigkeit in Englisch, Spanisch, Französisch und Deutsch. Das Unternehmen behauptet, dass Universal-1 Halluzinationen bei Sprachdaten um 30 % und bei Umgebungsgeräuschen um 90 % im Vergleich zum Whisper Large-v3 Modell von OpenAI reduziert.
In einem kürzlichen Blogbeitrag beschrieb Assembly AI Universal-1 als einen bedeutenden Fortschritt auf dem Weg, präzise, zuverlässige und robuste Sprach-zu-Text-Funktionen in mehreren Sprachen zu bieten. Das Modell kann erfolgreich zwischen verschiedenen Sprachen wechseln und transkribiert mehrere Sprachen innerhalb einer einzigen Audiodatei.
Universal-1 überzeugt mit verbesserter Zeitstempelschätzung, die für die Audiobearbeitung sowie die Analyse von Gesprächen entscheidend ist. Es übertrifft seinen Vorgänger Conformer-2 um 13 % und bietet eine bessere Sprecherdiarisierung sowie eine verbesserte concatenated minimum-permutation word error rate (cpWER) von 14 %. Darüber hinaus hat die Genauigkeit der Sprecheranzahl auf 71 % zugenommen.
Das Modell verfügt zudem über optimierte parallele Inferenz, was die Verarbeitungszeit langer Audiodateien erheblich reduziert. Universal-1 transkribiert eine Stunde Audio in nur 21 Sekunden auf Nvidia Tesla T4-Maschinen, was fünfmal schneller ist als Whisper Large-v3, das für dieselbe Aufgabe 107 Sekunden bei einer kleineren Batchgröße benötigt.
Verbesserte Sprach-zu-Text-AI-Modelle bieten zahlreiche Vorteile, darunter die Erstellung genauerer und zuverlässigerer Notizen, die Identifizierung von Aktionspunkten sowie die Sortierung von Metadaten wie Eigennamen, Sprecheridentifizierung und Zeitstempel. Diese Verbesserungen werden verschiedene Anwendungen unterstützen, von KI-gestützter Videobearbeitung bis hin zu Telemedizin-Plattformen, die präzise Einträge klinischer Notizen und die Übermittlung von Ansprüchen erfordern.
Das Universal-1-Modell ist nun über die API von Assembly AI zugänglich.