LLM이 공간 음향의 차별화를 마스터하는 방법

바이노럴 청각과 AI에서의 중요성

인간은 뛰어난 청각 능력을 지니고 있으며, 그 중에서도 바이노럴 청각은 다양한 소리의 종류를 식별하고 방향을 파악하며 거리를 평가할 수 있게 해줍니다. 우리는 심지어 동시에 발생하는 여러 소리의 출처를 구별할 수 있습니다.

대규모 언어 모델(LLMs)은 오디오 질문 응답, 음성 인식, 번역 및 합성 분야에서 탁월한 성능을 보이지만, 현재 현실 세계의 공간 오디오 입력에는 어려움을 겪고 있습니다.

BAT 소개: 공간 오디오 LLM의 돌파구

연구자들은 BAT를 개발하였으며, 이는 3차원 환경에서 소리에 대해 사고할 수 있는 최초의 공간 오디오 기반 LLM로 주목받고 있습니다. 이 모델은 다양한 오디오 유형(예: 웃음, 심장박동, 물 소리)을 효과적으로 분류하고, 소리의 방향(오른쪽, 왼쪽, 아래쪽)을 판단하며, 거리(1~10피트)를 추정할 수 있습니다. BAT는 특히 겹치는 소리가 있는 복잡한 상황에서도 뛰어난 공간 추리를 보여줍니다.

연구자들은 “LLM에 공간 오디오를 통합하는 것은 진정한 멀티모달 AI 시스템으로 나아가는 주요 진전을 의미합니다.”라고 말했습니다.

AI와 머신 러닝에서의 공간 오디오 도전 과제

"가상 서라운드 사운드"라고도 불리는 공간 오디오는 3D 공간에서 소리의 출처를 인식하게 하며, 가상 현실(VR) 및 고급 극장 시스템, 메타버스와 같은 미래 기술에서 경험을 향상시킵니다. 그러나 3차원 환경에서 소리를 위치 추적하고 해석하는 것은 AI와 머신 러닝에 많은 도전 과제를 안겨줍니다.

BAT의 개발자는 기존 응용 프로그램이 일관성이 부족하고 “중요한 실체 레이블”인 소스 거리 및 방향을 종종 결여하고 있다고 지적했습니다. 추가로, 소리 사건 위치화 및 감지(SELD)는 “주관적인 공간 오디오 인식”에 중점을 두는 경향이 있습니다.

기타 주목할 만한 응용 프로그램에는 다양성 있는 오디오 응용을 위한 ChatGPT 통합 AudioGPT와 클립 내 소리를 분석하는 LTU, 그리고 보편적인 오디오 이해를 위해 설계된 Qwen-audio가 있습니다. 그러나 이러한 모델들은 동적이고 복잡한 3D 환경에서 공간 오디오를 성공적으로 인식하고 추론하지 못합니다.

BAT의 탁월한 능력

BAT는 공간 추리 능력으로 돋보이며 77%에 가까운 인상적인 정확도를 달성했습니다. 기초 공간 오디오 인코더는 소리 유형 식별에서 50% 이상의 평균 평균 정밀도, 소리 방향에서 약 18도의 평균 각오차, 거리 추정에서 1.64피트의 거리 오차율과 32.54%의 정확도를 기록했습니다.

텍사스 대학교와 상하이 교통대학교의 전문가들로 구성된 연구팀은 소리 사건 감지, 공간 위치화 및 거리 인식을 위한 공간 오디오 스펙트로그램 변환기(SPATIAL-AST)와 공간 질문 응답 작업을 위한 SPATIALSOUNDQA를 개발한 후, SPATIAL-AST를 LLaMA-2 LLM과 통합하여 BAT를 만들었습니다.

BAT 테스트: 소리 유형, 방향 및 거리

소리 유형 질문:

Q: 녹음에서 어떤 소리 사건을 감지할 수 있습니까?

A: 아기의 웃음.

Q: 오디오 클립에서 구별되는 소리를 식별하세요.

A: 심장박동.

Q: 약 9피트 떨어진 곳에서 어떤 소리가 있습니까?

A: 물 소리; 대화.

Q: 왼쪽, 뒤쪽, 위에서 어떤 소리가 나고 있나요?

A: 음악; 악기; 스틸 팬.

방향 및 거리 질문:

Q: 심장 소리는 어떤 방향에서 나옵니까?

A: 왼쪽, 뒤쪽, 아래쪽; 3피트 떨어져 있습니다.

Q: 음악의 출처는 어디인가요?

A: 왼쪽, 뒤쪽, 아래쪽; 10피트 떨어져 있습니다.

공간 추리 질문:

Q: 쌕쌕거리는 소리가 새 날개짓 소리보다 더 가까운가요?

A: 아닙니다.

Q: 폭발음과 대화 소리는 왼쪽에 있습니까?

A: 네.

Q: 전기 면도기 소리는 폭포 뒤에서 발생합니까?

A: 네.

Q: 대화 소리와 개 소리의 거리를 추정하세요.

A: 1.64피트.

Q: 진동 위의 소리는 무엇입니까?

A: 개구리; 개구리 소리.

Q: 노래 소리가 증기 소리의 왼쪽인가 오른쪽인가요?

A: 왼쪽입니다.

연구자들은 “이 작업은 인식과 복잡한 추리 모두를 요구합니다.”라고 언급했습니다. 이 모델은 소리 출처를 분류하고 각 출처의 공간적 위치를 파악하며 맥락 속에서의 관계를 분석해야 합니다.

공간 오디오의 지평 확대

공간 오디오를 이해할 수 있는 LLM의 개발은 가상 현실, 게임 및 오디오 엔지니어링과 같은 분야에서 거대한 잠재력을 제시합니다. 연구자들은 “이로 인해 보다 몰입감 있고 현실적인 경험이 가능해질 것입니다."라고 주장합니다.

또한, 공간 오디오를 해석할 수 있는 능력은 로봇 및 자율주행차와 같은 신체적 AI 시스템을 향상시킬 수 있습니다. 향후 앰비소닉스의 발전은 이러한 경험을 더욱 생동감 있게 만들 것으로 보입니다.

연구자들은 BAT가 공간 오디오 인식과 추리를 크게 향상시켜 멀티모달 LLM의 발전에 기여할 것이라고 자신 있게 결론지었습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles