Binaurales Hören und seine Bedeutung für KI
Menschen verfügen über außergewöhnliche sensorische Fähigkeiten, insbesondere über binaurales Hören, das uns ermöglicht, Geräuscharten zu identifizieren, ihre Richtung zu bestimmen und ihre Distanz zu schätzen. Wir können sogar mehrere Schallquellen, die gleichzeitig auftreten, unterscheiden.
Obwohl große Sprachmodelle (LLMs) im Bereich der Audio-Fragenbeantwortung, Spracherkennung, Übersetzung und Synthese hervorragend abschneiden, haben sie derzeit Schwierigkeiten mit realen räumlichen Audioeingaben.
Einführung von BAT: Ein Durchbruch in räumlichen Audio-LLMs
Forschende haben mit BAT einen bedeutenden Fortschritt erzielt. BAT gilt als das erste auf räumlichem Audio basierende LLM, das in der Lage ist, über Geräusche in einer dreidimensionalen Umgebung zu Reasonieren. Dieses Modell klassifiziert effektiv verschiedene Audioarten (z. B. Lachen, Herzschlag, spritzendes Wasser), bestimmt die Schallrichtung (rechts, links, unten) und schätzt Entfernungen (von 1 bis 10 Fuß). BAT zeigt besonders in komplexen Szenarien mit überlappenden Klängen eine robuste räumliche Denkweise.
Laut den Forschenden ist „die Integration von räumlichem Audio in LLMs ein großer Fortschritt hin zu wahrhaft multimodalen KI-Systemen.“
Herausforderungen des räumlichen Audios in KI und maschinellem Lernen
Räumliches Audio, oft als „virtueller Surround-Sound“ bezeichnet, schafft die Wahrnehmung von Schallquellen in einem 3D-Raum, was die Erfahrungen in virtueller Realität (VR) und fortschrittlichen Theateranlagen verbessert, sowie in aufstrebenden Technologien wie dem Metaversum. Die Lokalisierung und Interpretation von Schallquellen in dreidimensionalen Umgebungen stellt jedoch eine erhebliche Herausforderung für KI und maschinelles Lernen (ML) dar.
Trotz fortschrittlicher akustischer Simulationsmethoden weisen die Entwickler von BAT darauf hin, dass bestehende Anwendungen oft inkonsistent sind und „entscheidende Ground-Truth-Labels“ wie Quellendistanz und Richtung fehlen. Darüber hinaus konzentriert sich die Schallereignislokalisierung und -erkennung (SELD) häufig auf „oberflächliche räumliche Audiowahrnehmung.“
Andere bemerkenswerte Anwendungen sind AudioGPT, das ChatGPT für verschiedene Audioanwendungen integriert; LTU, das Modellen die Analyse von Klängen in Clips ermöglicht; und Qwen-audio, das für das universelle Audioverständnis konzipiert ist. Doch keines dieser Modelle kann räumliches Audio in dynamischen, komplexen 3D-Umgebungen erfolgreich wahrnehmen und analysieren.
Außergewöhnliche Fähigkeiten von BAT
BAT hebt sich durch seine räumlichen Denkfähigkeiten hervor und erreicht eine beeindruckende Genauigkeitsrate von nahezu 77 %. Der zugrunde liegende räumliche Audio-Encoder erzielte eine mittlere Durchschnittsgenauigkeit von über 50 % bei der Identifizierung von Geräuscharten, einen mittleren Winkel-Fehler von etwa 18 Grad für die Schallrichtung und eine Distanz-Fehlerrate von nur 1,64 Fuß bei 32,54 % Genauigkeit für die Distanzschätzung.
Das Forschungsteam, bestehend aus Experten der University of Texas und der Shanghai Jiao Tong University, entwickelte den Spatial Audio Spectrogram Transformer (SPATIAL-AST) zur Erkennung von Schallereignissen, räumlichen Lokalisierung und Distanzwahrnehmung sowie SPATIALSOUNDQA für räumliche Frage-Antwort-Aufgaben. Anschließend integrierten sie SPATIAL-AST mit dem LLaMA-2 LLM, um BAT zu schaffen.
Test von BAT: Geräuschart, Richtung und Distanz
Fragen zur Geräuschart:
F: Welche Geräuschereignisse können Sie in der Aufnahme erkennen?
A: Ein Baby lacht.
F: Identifizieren Sie die verschiedenen Klänge im Audioausschnitt.
A: Herzschlag.
F: Welche Geräusche sind ungefähr 9 Fuß entfernt?
A: Spritzendes Wasser; Sprache.
F: Welche Geräusche kommen von links, hinten und oben?
A: Musik; Musikinstrument; Stahlpfanne.
Fragen zur Richtung und Distanz:
F: Aus welcher Richtung kommen die Herzschläge?
A: Links, hinten, unten; 3 Fuß entfernt.
F: Woher stammt die Musik?
A: Links, hinten, unten; 10 Fuß entfernt.
Fragen zur räumlichen Denkweise:
F: Ist das Geräusch des Keuchens näher als das Geräusch der flatternden Vögel?
A: Nein.
F: Befinden sich Explosions- und Sprachgeräusche links?
A: Ja.
F: Tritt das Geräusch eines elektrischen Rasierers hinter dem Wasserfall auf?
A: Ja.
F: Schätzen Sie die Entfernung vom Sprachgeräusch zum Hundegeräusch.
A: 1,64 Fuß.
F: Welches Geräusch kommt über der Vibration vor?
A: Quaken; Frosch.
F: Ist das Gesang-Geräusch links oder rechts vom Dampfsound?
A: Links.
Wie die Forschenden anmerken, „fordert diese Aufgabe sowohl Wahrnehmung als auch komplexes Denken.“ Das Modell muss die Schallquellen nach Klassen trennen, jede Quelle räumlich lokalisieren und ihre Beziehungen im Kontext analysieren.
Erweiterung der Horizonte des räumlichen Audios
Die Entwicklung von LLMs, die in der Lage sind, räumliches Audio zu verstehen, eröffnet enormes Potenzial in Bereichen wie virtueller Realität, Gaming und Audioengineering. „Dies kann zu immersiveren und realistischeren Erfahrungen führen“, betonen die Forschenden.
Darüber hinaus kann die Fähigkeit zur Interpretation von räumlichem Audio verkörperte KI-Systeme wie Roboter und autonome Fahrzeuge verbessern. Zukünftige Fortschritte in der Ambisonik könnten diese Erfahrungen weiter bereichern und sie noch lebensnäher machen.
Die Forschenden sind überzeugt, dass BAT die Wahrnehmung und das Denken über räumliches Audio erheblich voranbringen wird, was zur Evolution multimodaler LLMs beiträgt.