Audição Binaural e Sua Importância na IA
Os humanos possuem capacidades sensoriais excepcionais, destacando-se a audição binaural, que nos permite identificar tipos de som, localizar sua direção e avaliar a distância. Conseguimos até diferenciar múltiplas fontes sonoras que ocorrem simultaneamente.
Embora os modelos de linguagem de grande porte (LLMs) se destaquem em tarefas de resposta a perguntas auditivas, reconhecimento de fala, tradução e síntese, eles ainda enfrentam dificuldades com entradas de áudio espacial em ambientes reais.
Apresentando o BAT: Uma Inovação em LLMs de Áudio Espacial
Pesquisadores fizeram avanços significativos com o BAT, considerado o primeiro LLM baseado em áudio espacial capaz de raciocinar sobre sons em um ambiente tridimensional. Este modelo classifica efetivamente diversos tipos de áudio (ex.: riso, batimento cardíaco, água espirrando), determina a direção do som (direita, esquerda, abaixo) e estima distâncias (de 1 a 10 pés). O BAT demonstra um raciocínio espacial robusto, especialmente em cenários complexos com sons sobrepostos.
Segundo os pesquisadores, “A integração de áudio espacial nos LLMs é um grande avanço em direção a sistemas de IA verdadeiramente multimodais.”
Desafios do Áudio Espacial na IA e Aprendizado de Máquina
O áudio espacial, muitas vezes chamado de "som surround virtual", cria a percepção de fontes sonoras em um espaço 3D, aprimorando experiências em realidade virtual (VR) e sistemas de teatro avançados, além de tecnologias emergentes como o metaverso. No entanto, localizar e interpretar fontes sonoras em ambientes tridimensionais representa um desafio significativo para a IA e o aprendizado de máquina (ML).
Embora técnicas de simulação acústica tenham avançado, os desenvolvedores do BAT observam que aplicações existentes frequentemente carecem de consistência e “etiquetas de verdade fundamentais” cruciais, como distância e direção da fonte. Além disso, a Localização e Detecção de Eventos Sonoros (SELD) tende a focar na “percepção espacial de áudio superficial”.
Outras aplicações notáveis incluem o AudioGPT, que integra o ChatGPT para diversas aplicações de áudio; o LTU, que permite que modelos analisem sons dentro de clipes; e o Qwen-audio, projetado para compreensão universal de áudio. No entanto, nenhum desses modelos consegue perceber e raciocinar sobre áudio espacial em ambientes dinâmicos e complexos em 3D.
Capacidades Excepcionais do BAT
O BAT se destaca por suas habilidades de raciocínio espacial, alcançando uma impressionante taxa de precisão de quase 77%. O codificador de áudio espacial subjacente atingiu uma Precisão Média de mais de 50% na identificação de tipos de som, um Erro Angular Médio de cerca de 18 graus na direção do som e uma Taxa de Erro de Distância de apenas 1,64 pés com 32,54% de precisão na estimativa de distância.
A equipe de pesquisa, composta por especialistas da Universidade do Texas e da Universidade Jiao Tong de Shanghai, desenvolveu o Transformer de Espectrograma de Áudio Espacial (SPATIAL-AST) para detecção de eventos sonoros, localização espacial e percepção de distância, além do SPATIALSOUNDQA para tarefas de perguntas e respostas espaciais. Eles, então, integraram o SPATIAL-AST com o LLaMA-2 LLM para criar o BAT.
Testando o BAT: Tipo de Som, Direção e Distância
Perguntas sobre Tipo de Som:
P: Quais eventos sonoros você consegue detectar na gravação?
R: O riso de um bebê.
P: Identifique sons distintos no clipe de áudio.
R: Batimento cardíaco.
P: Que sons estão presentes a aproximadamente 9 pés de distância?
R: Água espirrando; fala.
P: Que sons vêm da esquerda, de trás e de cima?
R: Música; instrumento musical; panela de aço.
Perguntas sobre Direção e Distância:
P: De que direção vêm os sons cardíacos?
R: Esquerda, de trás, abaixo; 3 pés de distância.
P: De onde vem a música?
R: Esquerda, de trás, abaixo; 10 pés de distância.
Perguntas de Raciocínio Espacial:
P: O som de chiado está mais perto do que o som de asas de pássaro?
R: Não.
P: Sons de explosões e fala estão à esquerda?
R: Sim.
P: O som de um barbeador elétrico ocorre atrás da cachoeira?
R: Sim.
P: Estime a distância do som da fala ao som do cachorro.
R: 1,64 pés.
P: Que som está acima da vibração?
R: Croak; rã.
P: O som de canto está à esquerda ou à direita do som de vapor?
R: À esquerda.
Como afirmam os pesquisadores, “Essa tarefa exige percepção e raciocínio complexo.” O modelo deve separar as fontes sonoras por classe, localizar spatialmente cada fonte e analisar suas relações no contexto.
Expandindo os Horizontes do Áudio Espacial
O desenvolvimento de LLMs capazes de entender áudio espacial apresenta um vasto potencial em áreas como realidade virtual, jogos e engenharia de áudio. “Isso pode levar a experiências mais imersivas e realistas,” afirmam os pesquisadores.
Além disso, a capacidade de interpretar áudio espacial pode aprimorar sistemas de IA corporificada, como robôs e veículos autônomos. Avanços futuros em ambisonics podem enriquecer ainda mais essas experiências, tornando-as ainda mais realistas.
Os pesquisadores concluem com confiança que o BAT avançará significativamente a percepção e o raciocínio de áudio espacial, contribuindo para a evolução dos LLMs multimodais.