Die Transformation der Spracherkennung durch KI: aiOla’s innovative Methode zur Beherrschung von Branchenslang.

Home KI-Nachrichten Die Transformation der Spracherkennung durch KI: aiOla’s innovative Methode zur Beherrschung von Branchenslang.

Updated on Oktober 25 2024

Die Spracherkennung ist ein entscheidendes Element multimodaler KI-Systeme. Viele Unternehmen sind daran interessiert, diese Technologie zu integrieren, jedoch bestehen weiterhin Herausforderungen, insbesondere bei der präzisen Interpretation branchenspezifischer Fachbegriffe. aiOla, ein innovatives israelisches Startup, hat bedeutende Fortschritte zur Lösung dieses Problems gemacht. Das Unternehmen hat einen neuen Ansatz entwickelt, der dazu beitragen soll, dass Spracherkennungsmodelle Fachvokabular aus spezifischen Branchen besser erfassen können.

Diese Entwicklung verbessert die Genauigkeit und Reaktionsfähigkeit von Spracherkennungssystemen, wodurch sie auch in komplexen Unternehmensumgebungen, selbst unter schwierigen akustischen Bedingungen, effektiver werden. In einer ersten Fallstudie adaptierte aiOla das Whisper-Modell von OpenAI und konnte die Fehlerquote bei der Worterkennung erheblich senken und die Gesamtgenauigkeit steigern.

Die Herausforderung von Fachjargon in der Spracherkennung

In den letzten Jahren haben Fortschritte im Bereich des Deep Learning zur Entstehung leistungsstarker Systeme für automatische Spracherkennung (ASR) und Transkription beigetragen. OpenAI's Whisper hat aufgrund seiner Robustheit und Genauigkeit bei der Spracherkennung auf menschlichem Niveau in Englisch Aufmerksamkeit erregt. Seit seiner Veröffentlichung im Jahr 2022 haben viele jedoch festgestellt, dass die Leistung von Whisper in realen Szenarien, insbesondere in lärmsensiblen Umgebungen, schwanken kann. Das Entschlüsseln von Sicherheitswarnungen im Lärm schwerer Maschinen oder das Verstehen von Anweisungen mit spezialisiertem Vokabular in Bereichen wie Medizin oder Recht kann herausfordernd sein.

Organisationen, die fortschrittliche ASR-Modelle wie Whisper nutzen, bemühen sich häufig, ihre Systeme an die spezifischen Anforderungen ihrer Branche anzupassen. Obwohl dieses Feintuning die Leistung verbessern kann, ist es in der Regel mit erheblichen Kosten in Bezug auf Zeit und finanzielle Mittel verbunden.

„Das Feintuning von ASR-Modellen benötigt Tage und zehntausende Dollar – und das setzt voraus, dass bereits Daten vorhanden sind. Wenn nicht, kann die Sammlung und Kennzeichnung von Audio-Daten Monate dauern und zehntausende Dollar kosten“, erklärt Gil Hetz, VP of Research bei aiOla.

Um diese Herausforderungen zu bewältigen, hat aiOla einen zweistufigen Ansatz namens "kontextuelles Biasing" entwickelt. Zunächst identifiziert das AdaKWS-Modell branchenspezifische Fachbegriffe aus Sprachproben. Anschließend lenken diese identifizierten Schlüsselwörter den ASR-Dekoder, um die Begriffe in den finalen transkribierten Text zu integrieren, wodurch die Fähigkeit des Modells zur effektiven Erkennung spezialisierter Sprache verbessert wird.

In ersten Tests setzte aiOla Whisper ein und experimentierte mit zwei Techniken zur Leistungssteigerung: KG-Whisper (keyword-guided Whisper) und KG-Whisper-PT (prompt tuning). Beide Anpassungen zeigten gegenüber dem Originalmodell Whisper in verschiedenen Datensätzen, selbst in schwierigen akustischen Umgebungen, verbesserte Resultate.

„Unser neues Modell (KG-Whisper-PT) reduziert die Wortfehlerquote (WER) erheblich und verbessert die Genauigkeit (F1-Score). In Tests mit einem medizinischen Datensatz erzielte es einen F1-Score von 96,58, während Whisper bei 80,50 lag, und eine WER von 6,15 im Vergleich zu Whispers 7,33“, so Hertz.

Wesentlich ist, dass diese Methode mit verschiedenen ASR-Modellen kompatibel ist. Während aiOla Whisper verwendete, kann derselbe Ansatz auch auf Metas MMS und andere proprietäre Sprach-zu-Text-Modelle angewendet werden, sodass Unternehmen ein maßgeschneidertes Erkennungssystem erstellen können, ohne eine Neutrainierung durchführen zu müssen. Es genügt, eine Liste branchenspezifischer Begriffe an den Keyword-Spotter zur Verfügung zu stellen.

„Dieses Modell ermöglicht umfassende ASR-Funktionen, die Fachjargon präzise identifizieren. Es erlaubt uns, uns schnell an verschiedene Branchen anzupassen, indem wir lediglich das Fachvokabular ändern, ohne das gesamte System neu zu trainieren. Im Grunde handelt es sich um ein Nullschuss-Modell, das vorhersagen kann, ohne während des Trainings spezifische Beispiele gesehen zu haben“, erläutert Hertz.

Zeitersparnis für Fortune 500-Unternehmen

Dank seiner Anpassungsfähigkeit kann aiOlas Ansatz eine Vielzahl von Branchen mit technischem Jargon unterstützen, darunter Luftfahrt, Transport, Fertigung und Logistik. Das Unternehmen hat begonnen, sein adaptives Modell bei Fortune 500-Kunden einzusetzen und deren Effizienz im Umgang mit jargonbelasteten Prozessen erheblich zu steigern.

Ein Fortune 50 Global Leader in Versand und Logistik hat aiOlas Modell eingesetzt, um tägliche Lkw-Inspektionen zu automatisieren und jede Inspektion von etwa 15 Minuten auf unter 60 Sekunden zu reduzieren. Ebenso nutzte eine der führenden Lebensmittelketten Kanadas das Modell zur Überwachung von Produkt- und Fleischtrockenheit, was zu einer geschätzten jährlichen Zeitersparnis von 110.000 Stunden, über 2,5 Millionen Dollar an Einsparungen und einem 5-fachen ROI führte.

aiOla hat seine Forschung geteilt, in der Hoffnung, weitere Fortschritte in der KI durch andere Forschungsteams anzuregen. Das Unternehmen bietet jedoch derzeit keinen API-Zugang zum angepassten Modell an und veröffentlicht auch keine Gewichte. Unternehmen können auf diese Technologie ausschließlich über das abonnementbasierte Produktangebot von aiOla zugreifen.

Salesforce's xLAM-1B „Tiny Giant“: Wie kleinere KI-Modelle größere Wettbewerber übertreffen

Meta stellt '3D Gen' vor: Beschleunigen Sie die KI-gestützte Erstellung von 3D-Assets in beeindruckender Geschwindigkeit.

Most people like

Bloom Stories

239.8K

Entdecken Sie ein Refugium für sinnliches Wohlbefinden und persönliche Erkundung.

sinnliches Wohlbefinden AI Advertising Assistant

SunoCC.com

220.4K

Entdecken Sie die Kraft eines KI-Musikgenerators, der es Ihnen ermöglicht, maßgeschneiderte Tracks nach Ihren Bedürfnissen zu erstellen. Egal, ob Sie ein erfahrener Musiker oder ein Hobbyist sind, dieses innovative Werkzeug befähigt Sie, schnell und einfach originelle Musik zu komponieren und Ihr kreatives Potenzial zu entfalten. Tauchen Sie ein in die Welt der KI-generierten Musik und beginnen Sie, Tracks zu produzieren, die Ihre Projekte bereichern und Ihr Publikum inspirieren.

KI-Musikgenerator AI Music Generator

Flux Pro Image Generator

5.5K

Entdecken Sie die Kraft eines KI-Bildgenerators, der Ihre Texte mühelos in beeindruckende, hochwertige Visuals verwandelt. Erleben Sie die Zukunft der Kreativität, während dieses innovative Werkzeug Ihre Worte in fesselnde Bilder umsetzt, Ihre Projekte bereichert und Ihr Storytelling auf ein neues Level hebt. Ob für Marketing, soziale Medien oder persönliche Ausdrucksformen, diese KI-gestützte Plattform eröffnet unendliche Möglichkeiten zur Erstellung visueller Inhalte.

KI-Bildgenerator AI Photo & Image Generator

ColorifyAI

5.7K

Suchen Sie nach einer unterhaltsamen und kreativen Möglichkeit, sich mit Kunst zu beschäftigen? Ein KI-Färbeblatt-Generator kann Ihr kreatives Erlebnis bereichern, indem er Bilder und Ideen in einzigartige Malvorlagen umwandelt. Egal, ob Sie als Elternteil unterhaltsame Aktivitäten für Ihre Kinder suchen, als Künstler Inspiration finden möchten oder einfach mit einem entspannenden Hobby abschalten wollen – dieses moderne Werkzeug bietet endlose Möglichkeiten. Entdecken Sie, wie KI Ihre Vorstellungskraft anregen und Ihre Malvorlagen zum Leben erwecken kann!

ColorifyAI AI Photo & Image Generator

Find AI tools in YBX