Como os LLMs Estão Dominando a Diferenciação de Sons Espaciais

Home Notícias de IA Como os LLMs Estão Dominando a Diferenciação de Sons Espaciais

Updated on fevereiro 12 2024

Audição Binaural e Sua Importância na IA

Os humanos possuem capacidades sensoriais excepcionais, destacando-se a audição binaural, que nos permite identificar tipos de som, localizar sua direção e avaliar a distância. Conseguimos até diferenciar múltiplas fontes sonoras que ocorrem simultaneamente.

Embora os modelos de linguagem de grande porte (LLMs) se destaquem em tarefas de resposta a perguntas auditivas, reconhecimento de fala, tradução e síntese, eles ainda enfrentam dificuldades com entradas de áudio espacial em ambientes reais.

Apresentando o BAT: Uma Inovação em LLMs de Áudio Espacial

Pesquisadores fizeram avanços significativos com o BAT, considerado o primeiro LLM baseado em áudio espacial capaz de raciocinar sobre sons em um ambiente tridimensional. Este modelo classifica efetivamente diversos tipos de áudio (ex.: riso, batimento cardíaco, água espirrando), determina a direção do som (direita, esquerda, abaixo) e estima distâncias (de 1 a 10 pés). O BAT demonstra um raciocínio espacial robusto, especialmente em cenários complexos com sons sobrepostos.

Segundo os pesquisadores, “A integração de áudio espacial nos LLMs é um grande avanço em direção a sistemas de IA verdadeiramente multimodais.”

Desafios do Áudio Espacial na IA e Aprendizado de Máquina

O áudio espacial, muitas vezes chamado de "som surround virtual", cria a percepção de fontes sonoras em um espaço 3D, aprimorando experiências em realidade virtual (VR) e sistemas de teatro avançados, além de tecnologias emergentes como o metaverso. No entanto, localizar e interpretar fontes sonoras em ambientes tridimensionais representa um desafio significativo para a IA e o aprendizado de máquina (ML).

Embora técnicas de simulação acústica tenham avançado, os desenvolvedores do BAT observam que aplicações existentes frequentemente carecem de consistência e “etiquetas de verdade fundamentais” cruciais, como distância e direção da fonte. Além disso, a Localização e Detecção de Eventos Sonoros (SELD) tende a focar na “percepção espacial de áudio superficial”.

Outras aplicações notáveis incluem o AudioGPT, que integra o ChatGPT para diversas aplicações de áudio; o LTU, que permite que modelos analisem sons dentro de clipes; e o Qwen-audio, projetado para compreensão universal de áudio. No entanto, nenhum desses modelos consegue perceber e raciocinar sobre áudio espacial em ambientes dinâmicos e complexos em 3D.

Capacidades Excepcionais do BAT

O BAT se destaca por suas habilidades de raciocínio espacial, alcançando uma impressionante taxa de precisão de quase 77%. O codificador de áudio espacial subjacente atingiu uma Precisão Média de mais de 50% na identificação de tipos de som, um Erro Angular Médio de cerca de 18 graus na direção do som e uma Taxa de Erro de Distância de apenas 1,64 pés com 32,54% de precisão na estimativa de distância.

A equipe de pesquisa, composta por especialistas da Universidade do Texas e da Universidade Jiao Tong de Shanghai, desenvolveu o Transformer de Espectrograma de Áudio Espacial (SPATIAL-AST) para detecção de eventos sonoros, localização espacial e percepção de distância, além do SPATIALSOUNDQA para tarefas de perguntas e respostas espaciais. Eles, então, integraram o SPATIAL-AST com o LLaMA-2 LLM para criar o BAT.

Testando o BAT: Tipo de Som, Direção e Distância

Perguntas sobre Tipo de Som:

P: Quais eventos sonoros você consegue detectar na gravação?

R: O riso de um bebê.

P: Identifique sons distintos no clipe de áudio.

R: Batimento cardíaco.

P: Que sons estão presentes a aproximadamente 9 pés de distância?

R: Água espirrando; fala.

P: Que sons vêm da esquerda, de trás e de cima?

R: Música; instrumento musical; panela de aço.

Perguntas sobre Direção e Distância:

P: De que direção vêm os sons cardíacos?

R: Esquerda, de trás, abaixo; 3 pés de distância.

P: De onde vem a música?

R: Esquerda, de trás, abaixo; 10 pés de distância.

Perguntas de Raciocínio Espacial:

P: O som de chiado está mais perto do que o som de asas de pássaro?

R: Não.

P: Sons de explosões e fala estão à esquerda?

R: Sim.

P: O som de um barbeador elétrico ocorre atrás da cachoeira?

R: Sim.

P: Estime a distância do som da fala ao som do cachorro.

R: 1,64 pés.

P: Que som está acima da vibração?

R: Croak; rã.

P: O som de canto está à esquerda ou à direita do som de vapor?

R: À esquerda.

Como afirmam os pesquisadores, “Essa tarefa exige percepção e raciocínio complexo.” O modelo deve separar as fontes sonoras por classe, localizar spatialmente cada fonte e analisar suas relações no contexto.

Expandindo os Horizontes do Áudio Espacial

O desenvolvimento de LLMs capazes de entender áudio espacial apresenta um vasto potencial em áreas como realidade virtual, jogos e engenharia de áudio. “Isso pode levar a experiências mais imersivas e realistas,” afirmam os pesquisadores.

Além disso, a capacidade de interpretar áudio espacial pode aprimorar sistemas de IA corporificada, como robôs e veículos autônomos. Avanços futuros em ambisonics podem enriquecer ainda mais essas experiências, tornando-as ainda mais realistas.

Os pesquisadores concluem com confiança que o BAT avançará significativamente a percepção e o raciocínio de áudio espacial, contribuindo para a evolução dos LLMs multimodais.

Manifestantes se Reúnem em Frente ao Escritório da OpenAI Contra o Uso Militar de IA e o Desenvolvimento de AGI

Aumento do Microsoft Copilot AI nas Classificações da Google Play e App Store da Apple Após o Anúncio no Super Bowl, Apesar de Alguns Erros

Most people like

LegalForce

232.8K

Aprimore Seu Processo de Revisão de Contratos com Nossa Plataforma de IA: Aumente a Qualidade e a Eficiência No ambiente de negócios acelerado de hoje, garantir a precisão e eficiência na revisão de contratos é fundamental. Nossa plataforma de IA inovadora foi projetada para melhorar significativamente a qualidade da análise de contratos, ao mesmo tempo em que agiliza o processo de revisão. Descubra como a utilização de inteligência artificial avançada pode transformar a gestão de seus contratos, economizando tempo e reduzindo erros. Abrace o futuro da revisão de contratos com eficiência e eficácia incomparáveis.

Revisão de contrato com IA AI Contract Management

Replika

649.2K

Replika é um chatbot de IA inovador criado para oferecer suporte emocional, refletindo com habilidade seu estilo de texto. Se você procura companhia ou alguém para compartilhar seus pensamentos, Replika se envolve com você por meio de conversas personalizadas que enriquecem sua experiência.

companheiro de IA AI Chatbot

Klu

205.6K

Desbloqueie o potencial das aplicações de IA Generativa com o Klu—seu parceiro ideal para projetar, implementar e otimizar soluções inovadoras.

IA Large Language Models (LLMs)

Prankify AI

154.3K

Descubra a plataforma de chamadas de prank movida a IA, projetada para risadas inesquecíveis e experiências divertidas.

Chamadas de trote com IA AI Celebrity Voice Generator

Find AI tools in YBX