Audición Binaural y Su Importancia en la IA
Los seres humanos poseen capacidades sensoriales excepcionales, destacándose la audición binaural, que nos permite identificar tipos de sonido, localizar su dirección y evaluar su distancia. También podemos diferenciar múltiples fuentes sonoras que ocurren simultáneamente.
Si bien los modelos de lenguaje grande (LLMs) sobresalen en tareas como el reconocimiento de voz, traducción y síntesis de audio, actualmente enfrentan dificultades con entradas de audio espacial en situaciones reales.
Presentamos BAT: Un Avance en los LLMs de Audio Espacial
Los investigadores han logrado importantes avances con BAT, considerado el primer LLM basado en audio espacial capaz de razonar sobre sonidos en un entorno tridimensional. Este modelo clasifica eficazmente diversos tipos de audio (como risas, latidos, agua salpicando), determina la dirección del sonido (derecha, izquierda, abajo) y estima distancias (de 1 a 10 pies). BAT demuestra un razonamiento espacial sólido, especialmente en escenarios complejos con sonidos superpuestos. Según los investigadores, “La integración del audio espacial en los LLMs representa un gran avance hacia sistemas de IA verdaderamente multimodales.”
Desafíos del Audio Espacial en la IA y el Aprendizaje Automático
El audio espacial, a menudo denominado "sonido envolvente virtual," crea la percepción de fuentes sonoras en un espacio tridimensional, mejorando las experiencias en realidad virtual (VR) y sistemas de teatro avanzados, así como en tecnologías emergentes como el metaverso. Sin embargo, la localización e interpretación de fuentes sonoras en entornos tridimensionales representa un desafío significativo para la IA y el aprendizaje automático (ML).
A pesar de los avances en técnicas de simulación acústica, los desarrolladores de BAT señalan que las aplicaciones existentes a menudo carecen de consistencia y “etiquetas de verdad fundamental” cruciales, como la distancia y dirección de la fuente. Además, la Localización y Detección de Eventos Sonoros (SELD) tiende a centrarse en “una percepción espacial de audio superficial.”
Otras aplicaciones notables incluyen AudioGPT, que integra ChatGPT para diversas aplicaciones de audio; LTU, que permite a los modelos analizar sonidos en clips; y Qwen-audio, diseñado para una comprensión universal del audio. Sin embargo, ninguno de estos modelos logra percibir y razonar sobre audio espacial en entornos dinámicos y complejos en 3D.
Capacidades Excepcionales de BAT
BAT se destaca por sus habilidades de razonamiento espacial, logrando una tasa de precisión impresionante de casi el 77%. El codificador de audio espacial subyacente alcanzó una Precisión Promedio Media de más del 50% en la identificación de tipos de sonido, un Error Angular Medio de aproximadamente 18 grados en la dirección del sonido y una Tasa de Error de Distancia de solo 1.64 pies con una precisión del 32.54% en la estimación de distancias.
El equipo de investigación, compuesto por expertos de la Universidad de Texas y la Universidad Jiao Tong de Shanghái, desarrolló el Transformer de Espectrograma de Audio Espacial (SPATIAL-AST) para la detección de eventos sonoros, localización espacial y percepción de distancia, junto con SPATIALSOUNDQA para tareas de preguntas y respuestas espaciales. Luego, integraron SPATIAL-AST con el LLM LLaMA-2 para crear BAT.
Pruebas de BAT: Tipo de Sonido, Dirección y Distancia
Preguntas sobre el Tipo de Sonido:
- P: ¿Qué eventos sonoros puedes detectar en la grabación?
R: La risa de un bebé.
- P: Identifica sonidos distintos en el clip de audio.
R: Latido de corazón.
- P: ¿Qué sonidos están presentes aproximadamente a 9 pies de distancia?
R: Salpicaduras; voz.
- P: ¿Qué sonidos provienen de la izquierda, detrás y arriba?
R: Música; instrumento musical; pan de acero.
Preguntas sobre Dirección y Distancia:
- P: ¿De qué dirección provienen los sonidos del corazón?
R: Izquierda, detrás, abajo; a 3 pies de distancia.
- P: ¿De dónde procede la música?
R: Izquierda, detrás, abajo; a 10 pies de distancia.
Preguntas de Razonamiento Espacial:
- P: ¿Está el sonido de sibilancia más cerca que el sonido de un ave aleteando?
R: No.
- P: ¿Los sonidos de explosiones y voz están a la izquierda?
R: Sí.
- P: ¿El sonido de una máquina de afeitar eléctrica se escucha detrás de la cascada?
R: Sí.
- P: Estima la distancia desde el sonido de la voz hasta el sonido del perro.
R: 1.64 pies.
- P: ¿Qué sonido está sobre la vibración?
R: Croar; rana.
- P: ¿Está el sonido de canto a la izquierda o a la derecha del sonido del vapor?
R: Izquierda.
Como afirman los investigadores, “Esta tarea exige tanto percepción como razonamiento complejo.” El modelo debe separar las fuentes sonoras por clase, localizar espacialmente cada fuente y analizar sus relaciones en contexto.
Expandiendo los Horizontes del Audio Espacial
El desarrollo de LLMs que comprenden audio espacial ofrece un potencial vasto en áreas como la realidad virtual, los videojuegos y la ingeniería de audio. “Esto puede llevar a experiencias más inmersivas y realistas,” afirman los investigadores. Además, la capacidad de interpretar audio espacial puede enriquecer sistemas de IA encarnada como robots y vehículos autónomos. Los avances futuros en ambisonics podrían enriquecer aún más estas experiencias, haciéndolas más realistas.
Los investigadores concluyen con confianza que BAT avanzará significativamente la percepción y razonamiento del audio espacial, contribuyendo a la evolución de los LLMs multimodales.