L'Audition Binaurale et Son Importance dans l'IA
Les humains possèdent des capacités sensorielles exceptionnelles, en particulier l'audition binaurale, qui nous permet de distinguer les types de sons, de localiser leur direction et d'évaluer leur distance. Nous pouvons même différencier plusieurs sources sonores se produisant simultanément.
Les grands modèles de langage (LLM) excellent dans des domaines tels que la réponse audio aux questions, la reconnaissance vocale, la traduction et la synthèse, mais ils rencontrent encore des difficultés avec les entrées audio spatiales du monde réel.
Présentation de BAT : Une Révolution dans les LLMs Audio Spatiaux
Les chercheurs ont fait des avancées majeures avec BAT, considéré comme le premier LLM basé sur l'audio spatial capable de raisonner sur les sons dans un environnement tridimensionnel. Ce modèle classe efficacement différents types de sons (par exemple, rire, battement de cœur, éclaboussement), détermine la direction sonore (droite, gauche, en dessous) et estime les distances (de 1 à 10 pieds). BAT démontre une raison spatiale robuste, en particulier dans des scénarios complexes avec des sons superposés.
Selon les chercheurs, « L'intégration de l'audio spatial dans les LLMs représente une avancée majeure vers des systèmes d'IA multimodaux véritables. »
Défis de l'Audio Spatial en IA et en Apprentissage Automatique
L'audio spatial, souvent appelé « son surround virtuel », crée la perception de sources sonores dans un espace 3D, enrichissant les expériences de réalité virtuelle (VR) et de systèmes de théâtre avancés, ainsi que des technologies émergentes comme le métavers. Cependant, localiser et interpréter les sources sonores dans des environnements tridimensionnels représente un défi considérable pour l'IA et l'apprentissage automatique (ML).
Bien que des techniques de simulation acoustique aient été avancées, les développeurs de BAT soulignent que les applications existantes manquent souvent de cohérence et de « labels de vérité de terrain essentiels », tels que la distance et la direction des sources. De plus, la localisation et la détection des événements sonores (SELD) tendent à se concentrer sur « une perception audio spatiale superficielle ».
Parmi les autres applications notables figurent AudioGPT, qui intègre ChatGPT pour des applications audio variées ; LTU, qui permet aux modèles d'analyser des sons dans des extraits ; et Qwen-audio, conçu pour une compréhension audio universelle. Cependant, aucun de ces modèles ne perçoit et ne raisonne efficacement sur l'audio spatial dans des environnements 3D dynamiques et complexes.
Capacités Exceptionnelles de BAT
BAT se distingue par ses capacités de raisonnement spatial, atteignant un taux de précision impressionnant de près de 77 %. L'encodeur audio spatial sous-jacent a obtenu une précision moyenne de plus de 50 % pour l'identification des types de sons, une erreur angulaire moyenne d'environ 18 degrés pour la direction sonore, et un taux d'erreur de distance de seulement 1,64 pied avec une précision de 32,54 % pour l'estimation de la distance.
L'équipe de recherche, composée d'experts de l'Université du Texas et de l'Université Jiao Tong de Shanghai, a développé le Spatial Audio Spectrogram Transformer (SPATIAL-AST) pour la détection d'événements sonores, la localisation spatiale et la perception de la distance, ainsi que SPATIALSOUNDQA pour les tâches de questions-réponses spatiales. Ils ont ensuite intégré SPATIAL-AST avec le LLaMA-2 LLM pour créer BAT.
Tester BAT : Type de Son, Direction et Distance
Questions sur le Type de Son :
Q : Quels événements sonores pouvez-vous détecter dans l'enregistrement ?
R : Le rire d'un bébé.
Q : Identifiez les sons distincts dans l'extrait audio.
R : Battement de cœur.
Q : Quels sons sont présents à environ 9 pieds ?
R : Éclaboussement ; discours.
Q : Quels sons viennent de la gauche, de derrière et d'au-dessus ?
R : Musique ; instrument de musique ; pan de métal.
Questions sur la Direction et la Distance :
Q : De quelle direction viennent les sons de cœur ?
R : À gauche, derrière, en dessous ; à 3 pieds.
Q : D'où provient la musique ?
R : À gauche, derrière, en dessous ; à 10 pieds.
Questions de Raisonnement Spatial :
Q : Le bruit de respiration est-il plus proche que le bruit d'un oiseau ?
R : Non.
Q : Les bruits d'explosions et de discours proviennent-ils de la gauche ?
R : Oui.
Q : Le bruit d'un rasoir électrique provient-il de derrière la cascade ?
R : Oui.
Q : Estimez la distance du bruit de discours au bruit de chien.
R : 1,64 pied.
Q : Quel son est au-dessus de la vibration ?
R : Coassement ; grenouille.
Q : Le son du chant est-il à gauche ou à droite du son de la vapeur ?
R : À gauche.
Comme le déclarent les chercheurs, «Cette tâche nécessite à la fois perception et raisonnement complexe.» Le modèle doit séparer les sources sonores par catégorie, localiser spatialement chaque source, et analyser leurs relations dans le contexte.
Élargir les Horizons de l'Audio Spatial
Le développement de LLMs capables de comprendre l'audio spatial présente un potentiel immense dans des domaines tels que la réalité virtuelle, les jeux vidéo et l'ingénierie audio. « Cela peut conduire à des expériences plus immersives et réalistes », affirment les chercheurs.
De plus, la capacité d'interpréter l'audio spatial peut enrichir les systèmes d'IA incarnée, tels que les robots et les véhicules autonomes. Les avancées futures en ambisonique pourraient encore enrichir ces expériences, les rendant encore plus réalistes.
Les chercheurs concluent avec confiance que BAT fera progresser de manière significative la perception et le raisonnement audio spatial, contribuant à l'évolution des LLMs multimodaux.