Comment les LLM maîtrisent la différenciation des sons spatiaux

Home Actualités IA Comment les LLM maîtrisent la différenciation des sons spatiaux

Updated on février 12 2024

L'Audition Binaurale et Son Importance dans l'IA

Les humains possèdent des capacités sensorielles exceptionnelles, en particulier l'audition binaurale, qui nous permet de distinguer les types de sons, de localiser leur direction et d'évaluer leur distance. Nous pouvons même différencier plusieurs sources sonores se produisant simultanément.

Les grands modèles de langage (LLM) excellent dans des domaines tels que la réponse audio aux questions, la reconnaissance vocale, la traduction et la synthèse, mais ils rencontrent encore des difficultés avec les entrées audio spatiales du monde réel.

Présentation de BAT : Une Révolution dans les LLMs Audio Spatiaux

Les chercheurs ont fait des avancées majeures avec BAT, considéré comme le premier LLM basé sur l'audio spatial capable de raisonner sur les sons dans un environnement tridimensionnel. Ce modèle classe efficacement différents types de sons (par exemple, rire, battement de cœur, éclaboussement), détermine la direction sonore (droite, gauche, en dessous) et estime les distances (de 1 à 10 pieds). BAT démontre une raison spatiale robuste, en particulier dans des scénarios complexes avec des sons superposés.

Selon les chercheurs, « L'intégration de l'audio spatial dans les LLMs représente une avancée majeure vers des systèmes d'IA multimodaux véritables. »

Défis de l'Audio Spatial en IA et en Apprentissage Automatique

L'audio spatial, souvent appelé « son surround virtuel », crée la perception de sources sonores dans un espace 3D, enrichissant les expériences de réalité virtuelle (VR) et de systèmes de théâtre avancés, ainsi que des technologies émergentes comme le métavers. Cependant, localiser et interpréter les sources sonores dans des environnements tridimensionnels représente un défi considérable pour l'IA et l'apprentissage automatique (ML).

Bien que des techniques de simulation acoustique aient été avancées, les développeurs de BAT soulignent que les applications existantes manquent souvent de cohérence et de « labels de vérité de terrain essentiels », tels que la distance et la direction des sources. De plus, la localisation et la détection des événements sonores (SELD) tendent à se concentrer sur « une perception audio spatiale superficielle ».

Parmi les autres applications notables figurent AudioGPT, qui intègre ChatGPT pour des applications audio variées ; LTU, qui permet aux modèles d'analyser des sons dans des extraits ; et Qwen-audio, conçu pour une compréhension audio universelle. Cependant, aucun de ces modèles ne perçoit et ne raisonne efficacement sur l'audio spatial dans des environnements 3D dynamiques et complexes.

Capacités Exceptionnelles de BAT

BAT se distingue par ses capacités de raisonnement spatial, atteignant un taux de précision impressionnant de près de 77 %. L'encodeur audio spatial sous-jacent a obtenu une précision moyenne de plus de 50 % pour l'identification des types de sons, une erreur angulaire moyenne d'environ 18 degrés pour la direction sonore, et un taux d'erreur de distance de seulement 1,64 pied avec une précision de 32,54 % pour l'estimation de la distance.

L'équipe de recherche, composée d'experts de l'Université du Texas et de l'Université Jiao Tong de Shanghai, a développé le Spatial Audio Spectrogram Transformer (SPATIAL-AST) pour la détection d'événements sonores, la localisation spatiale et la perception de la distance, ainsi que SPATIALSOUNDQA pour les tâches de questions-réponses spatiales. Ils ont ensuite intégré SPATIAL-AST avec le LLaMA-2 LLM pour créer BAT.

Tester BAT : Type de Son, Direction et Distance

Questions sur le Type de Son :

Q : Quels événements sonores pouvez-vous détecter dans l'enregistrement ?

R : Le rire d'un bébé.

Q : Identifiez les sons distincts dans l'extrait audio.

R : Battement de cœur.

Q : Quels sons sont présents à environ 9 pieds ?

R : Éclaboussement ; discours.

Q : Quels sons viennent de la gauche, de derrière et d'au-dessus ?

R : Musique ; instrument de musique ; pan de métal.

Questions sur la Direction et la Distance :

Q : De quelle direction viennent les sons de cœur ?

R : À gauche, derrière, en dessous ; à 3 pieds.

Q : D'où provient la musique ?

R : À gauche, derrière, en dessous ; à 10 pieds.

Questions de Raisonnement Spatial :

Q : Le bruit de respiration est-il plus proche que le bruit d'un oiseau ?

R : Non.

Q : Les bruits d'explosions et de discours proviennent-ils de la gauche ?

R : Oui.

Q : Le bruit d'un rasoir électrique provient-il de derrière la cascade ?

R : Oui.

Q : Estimez la distance du bruit de discours au bruit de chien.

R : 1,64 pied.

Q : Quel son est au-dessus de la vibration ?

R : Coassement ; grenouille.

Q : Le son du chant est-il à gauche ou à droite du son de la vapeur ?

R : À gauche.

Comme le déclarent les chercheurs, «Cette tâche nécessite à la fois perception et raisonnement complexe.» Le modèle doit séparer les sources sonores par catégorie, localiser spatialement chaque source, et analyser leurs relations dans le contexte.

Élargir les Horizons de l'Audio Spatial

Le développement de LLMs capables de comprendre l'audio spatial présente un potentiel immense dans des domaines tels que la réalité virtuelle, les jeux vidéo et l'ingénierie audio. « Cela peut conduire à des expériences plus immersives et réalistes », affirment les chercheurs.

De plus, la capacité d'interpréter l'audio spatial peut enrichir les systèmes d'IA incarnée, tels que les robots et les véhicules autonomes. Les avancées futures en ambisonique pourraient encore enrichir ces expériences, les rendant encore plus réalistes.

Les chercheurs concluent avec confiance que BAT fera progresser de manière significative la perception et le raisonnement audio spatial, contribuant à l'évolution des LLMs multimodaux.

Des manifestants se rassemblent devant le bureau d'OpenAI contre l'utilisation militaire de l'IA et le développement de l'AGI.

L'IA Microsoft Copilot grimpe dans les classements des App Store de Google et d'Apple après une publicité au Super Bowl, malgré quelques erreurs.

Most people like

Sparkpages AI

1.1M

À une époque où l'information est abondante mais souvent trompeuse, trouver du contenu fiable peut sembler écrasant. Notre moteur de recherche alimenté par l'IA est conçu pour percer le bruit ambiant, vous offrant des résultats impartiaux et fiables adaptés à vos besoins. Découvrez une nouvelle façon de naviguer sur le web, garantissant que votre recherche soit ciblée, précise et exempte de manipulation. Explorez l'avenir de la recherche avec confiance et clarté.

Moteur d'agent IA Other

roomdesigner.ai

15.5K

Découvrez roomdesigner.ai, une plateforme intuitive alimentée par l'IA, conçue pour simplifier le processus de conception d'intérieur. Transformez votre espace sans effort grâce à une technologie de pointe qui vous permet de créer des intérieurs époustouflants aisément.

Autre AI Interior & Room Design

Nex : AI Knowledge Copilot

54.1K

Découvrez notre générateur de résumés et de plans alimenté par l'IA, conçu spécifiquement pour les vidéos et articles YouTube ! Cet outil innovant simplifie la création de contenu en offrant des résumés concis et des plans structurés, facilitant ainsi le travail des créateurs et des responsables marketing pour améliorer leurs vidéos et articles. Élevez votre stratégie de contenu, améliorez l'engagement des spectateurs et gagnez du temps grâce à nos fonctionnalités avancées optimisées pour de meilleures performances SEO. Commencez à créer des résumés et des plans percutants dès aujourd'hui !

Générateur de résumé IA Summarizer

Studyable

178.7K

Découvrez une plateforme d'apprentissage alimentée par l'IA, conçue pour améliorer votre expérience d'étude grâce à des assistants de discussion intelligents et des retours perspicaces sur vos essais. Cet outil innovant aide non seulement les étudiants à comprendre des concepts complexes, mais offre également un soutien personnalisé pour améliorer leurs compétences rédactionnelles. Embrassez l'avenir de l'éducation avec une technologie qui s'adapte à vos besoins !

Apprentissage de l'IA AI Education Assistant

Find AI tools in YBX