Die Transformation der Spracherkennung durch KI: aiOla’s innovative Methode zur Beherrschung von Branchenslang.

Die Sprach­erkennung ist ein entscheidendes Element multimodaler KI-Systeme. Viele Unternehmen sind daran interessiert, diese Technologie zu integrieren, jedoch bestehen weiterhin Herausforderungen, insbesondere bei der präzisen Interpretation branchenspezifischer Fachbegriffe. aiOla, ein innovatives israelisches Startup, hat bedeutende Fortschritte zur Lösung dieses Problems gemacht. Das Unternehmen hat einen neuen Ansatz entwickelt, der dazu beitragen soll, dass Sprach­erkennungsmodelle Fachvokabular aus spezifischen Branchen besser erfassen können.

Diese Entwicklung verbessert die Genauigkeit und Reaktionsfähigkeit von Sprach­erkennungssystemen, wodurch sie auch in komplexen Unternehmensumgebungen, selbst unter schwierigen akustischen Bedingungen, effektiver werden. In einer ersten Fallstudie adaptierte aiOla das Whisper-Modell von OpenAI und konnte die Fehlerquote bei der Wort­erkennung erheblich senken und die Gesamtgenauigkeit steigern.

Die Herausforderung von Fachjargon in der Sprach­erkennung

In den letzten Jahren haben Fortschritte im Bereich des Deep Learning zur Entstehung leistungsstarker Systeme für automatische Sprach­erkennung (ASR) und Transkription beigetragen. OpenAI's Whisper hat aufgrund seiner Robustheit und Genauigkeit bei der Sprach­erkennung auf menschlichem Niveau in Englisch Aufmerksamkeit erregt. Seit seiner Veröffentlichung im Jahr 2022 haben viele jedoch festgestellt, dass die Leistung von Whisper in realen Szenarien, insbesondere in lärmsensiblen Umgebungen, schwanken kann. Das Entschlüsseln von Sicherheitswarnungen im Lärm schwerer Maschinen oder das Verstehen von Anweisungen mit spezialisiertem Vokabular in Bereichen wie Medizin oder Recht kann herausfordernd sein.

Organisationen, die fortschrittliche ASR-Modelle wie Whisper nutzen, bemühen sich häufig, ihre Systeme an die spezifischen Anforderungen ihrer Branche anzupassen. Obwohl dieses Feintuning die Leistung verbessern kann, ist es in der Regel mit erheblichen Kosten in Bezug auf Zeit und finanzielle Mittel verbunden.

„Das Feintuning von ASR-Modellen benötigt Tage und zehntausende Dollar – und das setzt voraus, dass bereits Daten vorhanden sind. Wenn nicht, kann die Sammlung und Kennzeichnung von Audio-Daten Monate dauern und zehntausende Dollar kosten“, erklärt Gil Hetz, VP of Research bei aiOla.

Um diese Herausforderungen zu bewältigen, hat aiOla einen zweistufigen Ansatz namens "kontextuelles Biasing" entwickelt. Zunächst identifiziert das AdaKWS-Modell branchenspezifische Fachbegriffe aus Sprachproben. Anschließend lenken diese identifizierten Schlüsselwörter den ASR-Dekoder, um die Begriffe in den finalen transkribierten Text zu integrieren, wodurch die Fähigkeit des Modells zur effektiven Erkennung spezialisierter Sprache verbessert wird.

In ersten Tests setzte aiOla Whisper ein und experimentierte mit zwei Techniken zur Leistungssteigerung: KG-Whisper (keyword-guided Whisper) und KG-Whisper-PT (prompt tuning). Beide Anpassungen zeigten gegenüber dem Originalmodell Whisper in verschiedenen Datensätzen, selbst in schwierigen akustischen Umgebungen, verbesserte Resultate.

„Unser neues Modell (KG-Whisper-PT) reduziert die Wortfehlerquote (WER) erheblich und verbessert die Genauigkeit (F1-Score). In Tests mit einem medizinischen Datensatz erzielte es einen F1-Score von 96,58, während Whisper bei 80,50 lag, und eine WER von 6,15 im Vergleich zu Whispers 7,33“, so Hertz.

Wesentlich ist, dass diese Methode mit verschiedenen ASR-Modellen kompatibel ist. Während aiOla Whisper verwendete, kann derselbe Ansatz auch auf Metas MMS und andere proprietäre Sprach-zu-Text-Modelle angewendet werden, sodass Unternehmen ein maßgeschneidertes Erkennungssystem erstellen können, ohne eine Neutrainierung durchführen zu müssen. Es genügt, eine Liste branchenspezifischer Begriffe an den Keyword-Spotter zur Verfügung zu stellen.

„Dieses Modell ermöglicht umfassende ASR-Funktionen, die Fachjargon präzise identifizieren. Es erlaubt uns, uns schnell an verschiedene Branchen anzupassen, indem wir lediglich das Fachvokabular ändern, ohne das gesamte System neu zu trainieren. Im Grunde handelt es sich um ein Nullschuss-Modell, das vorhersagen kann, ohne während des Trainings spezifische Beispiele gesehen zu haben“, erläutert Hertz.

Zeitersparnis für Fortune 500-Unternehmen

Dank seiner Anpassungsfähigkeit kann aiOlas Ansatz eine Vielzahl von Branchen mit technischem Jargon unterstützen, darunter Luftfahrt, Transport, Fertigung und Logistik. Das Unternehmen hat begonnen, sein adaptives Modell bei Fortune 500-Kunden einzusetzen und deren Effizienz im Umgang mit jargonbelasteten Prozessen erheblich zu steigern.

Ein Fortune 50 Global Leader in Versand und Logistik hat aiOlas Modell eingesetzt, um tägliche Lkw-Inspektionen zu automatisieren und jede Inspektion von etwa 15 Minuten auf unter 60 Sekunden zu reduzieren. Ebenso nutzte eine der führenden Lebensmittelketten Kanadas das Modell zur Überwachung von Produkt- und Fleischtrockenheit, was zu einer geschätzten jährlichen Zeitersparnis von 110.000 Stunden, über 2,5 Millionen Dollar an Einsparungen und einem 5-fachen ROI führte.

aiOla hat seine Forschung geteilt, in der Hoffnung, weitere Fortschritte in der KI durch andere Forschungsteams anzuregen. Das Unternehmen bietet jedoch derzeit keinen API-Zugang zum angepassten Modell an und veröffentlicht auch keine Gewichte. Unternehmen können auf diese Technologie ausschließlich über das abonnementbasierte Produktangebot von aiOla zugreifen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles