aiOla präsentiert Whisper-Medusa: Ein revolutionäres Spracherkennungsmodell
Heute stellte das israelische KI-Startup aiOla Whisper-Medusa vor, ein bahnbrechendes Open-Source-Spracherkennungsmodell, das 50 % schneller arbeitet als OpenAIs bekanntes Whisper. Whisper-Medusa nutzt eine neuartige „Multi-Head-Attention“-Architektur, die es ermöglicht, mehrere Tokens gleichzeitig vorherzusagen und somit die Geschwindigkeit erheblich zu steigern. Der Code und die Gewichte des Modells sind unter einer MIT-Lizenz auf Hugging Face verfügbar und unterstützen sowohl Forschungs- als auch kommerzielle Anwendungen.
Mit der Veröffentlichung dieser Lösung als Open Source fördert aiOla Innovation und Zusammenarbeit innerhalb der KI-Community. „Das kann zu noch größeren Geschwindigkeitsverbesserungen führen, wenn Entwickler und Forscher auf unserer Arbeit aufbauen“, sagte Gill Hetz, VP of Research bei aiOla. Diese Fortschritte könnten den Weg für KI-Systeme ebnen, die Nutzeranfragen in nahezu Echtzeit verstehen und darauf reagieren.
Was macht Whisper-Medusa besonders?
In einer Zeit, in der fundamentale Modelle eine zunehmend vielfältige Inhaltserstellung ermöglichen, bleibt die Bedeutung fortschrittlicher Spracherkennung entscheidend. Diese Technologie ist in verschiedenen Sektoren, wie Gesundheitswesen und Fintech, unabdingbar, da sie Aufgaben wie Transkription erleichtert und anspruchsvolle multimodale KI-Systeme antreibt. Im vergangenen Jahr verwandelte OpenAIs Whisper-Modell Nutzer-Audios in Text für die Verarbeitung durch große Sprachmodelle (LLMs), die dann gesprochene Antworten lieferten.
Whisper hat sich zum Goldstandard der Spracherkennung entwickelt und verarbeitet komplexe Sprachmuster und Akzente in nahezu Echtzeit. Mit über 5 Millionen monatlichen Downloads unterstützt es zehntausende Anwendungen. Nun behauptet aiOla, dass Whisper-Medusa eine noch schnellere Spracherkennung und Transkription erzielt. Durch die Verbesserung von Whispers Architektur mit einem Multi-Head-Attention-Mechanismus kann das Modell zehn Tokens pro Durchlauf vorhersagen, statt nur einem, was zu einer 50 %igen Steigerung der Vorhersageschnelligkeit und Laufzeiteffizienz führt.
aiOla Whisper-Medusa vs. OpenAI Whisper
Trotz der erhöhten Geschwindigkeit erreicht Whisper-Medusa den gleichen Genauigkeitsgrad wie das ursprüngliche Whisper-Modell dank seiner fundamentalen Architektur. Hetz erklärte: „Wir sind die Ersten in der Branche, die diesen Ansatz auf ein automatisches Spracherkennungsmodell (ASR) anwenden und es für die öffentliche Forschung freigeben.“
„Die Verbesserung der Geschwindigkeit von LLMs ist einfacher als die Optimierung von ASR-Systemen. Die Komplexität kontinuierlicher Audiosignale und Hintergrundgeräusche stellt einzigartige Herausforderungen dar. Durch unseren Multi-Head-Attention-Ansatz haben wir die Vorhersageschnelligkeit nahezu verdoppelt, ohne die Genauigkeit zu beeinträchtigen“, fügte Hetz hinzu.
Trainingsmethodik für Whisper-Medusa
aiOla verwendete eine schwach überwachte maschinelle Lerntechnik zum Training von Whisper-Medusa. Durch das Einfrieren der wesentlichen Komponenten von Whisper wurden die vom Modell selbst generierten Audiotranskriptionen als Labels genutzt, um zusätzliche Token-Vorhersagemodule zu trainieren.
Hetz erwähnte, dass sie mit einem 10-Head-Modell starteten, planen jedoch die Erweiterung auf eine 20-Head-Version, die in der Lage ist, 20 Tokens gleichzeitig vorherzusagen, um noch schnellere Erkennungen und Transkriptionen zu ermöglichen, ohne die Genauigkeit zu beeinträchtigen. „Diese Methode ermöglicht eine effiziente Verarbeitung des gesamten Sprachausgangs auf einmal, was die Notwendigkeit mehrerer Durchläufe reduziert und die Geschwindigkeit erhöht“, erklärte er.
Während Hetz über einen frühen Zugang für spezifische Unternehmen diskret blieb, bestätigte er, dass reale Anwendungsfälle mit Unternehmensdaten getestet wurden, um die Leistung in realen Anwendungen zu validieren. Eine Verbesserung der Erkennungs- und Transkriptionsgeschwindigkeiten wird erwartet, um schnellere Antworten in Sprach-Anwendungen zu ermöglichen. Stellen Sie sich einen KI-Assistenten wie Alexa vor, der Antworten in Sekunden liefert.
„Die Branche wird enorm von Echtzeit-Sprach-zu-Text-Systemen profitieren, die die Produktivität steigern, Kosten senken und die Bereitstellung von Inhalten beschleunigen“, schloss Hetz.