雙耳聽覺及其在人工智慧中的重要性
人類擁有卓越的感官能力,特別是雙耳聽覺,讓我們能辨別聲音類型、確定其方向並評估距離。我們甚至能夠區分同時出現的多個聲音來源。
儘管大型語言模型(LLMs)在音頻問答、語音辨識、翻譯及合成方面表現出色,但在處理現實世界的空間音頻輸入上仍然面臨挑戰。
引入BAT:空間音頻LLM的突破
研究人員在BAT的開發上取得了重大進展,該模型被譽為首個基於空間音頻的LLM,能夠在三維環境中進行聲音推理。此模型有效地分類各種音頻類型(如笑聲、心跳、水花聲)、確定聲音方向(左、右、下)並估算距離(1到10英尺)。BAT在處理複雜情境中重疊聲音的空間推理能力也十分出色。
研究人員表示:「將空間音頻整合進LLMs是一項重大的進展,邁向真正的多模態人工智慧系統。」
AI與機器學習中的空間音頻挑戰
空間音頻,通常被稱為「虛擬環繞聲」,能在三維空間中創造聲音來源的感知,增強虛擬實境(VR)、高級影院系統及元宇宙等新興科技的體驗。然而,在三維環境中本地化和解釋聲音來源對AI和機器學習(ML)來說是一個重大挑戰。
儘管聲學模擬技術已經取得進展,但BAT的開發者指出,現有應用往往缺乏一致性和「關鍵的真實標籤」,如聲源距離和方向。此外,聲音事件定位與偵測(SELD)通常專注於「淺層的空間音頻感知」。
其他相關應用包括AudioGPT,它將ChatGPT整合於多種音頻應用中;LTU,讓模型能夠分析剪輯中的聲音;以及Qwen-audio,設計用於通用音頻理解。然而,這些模型尚未成功地在動態複雜的三維環境中感知並推理空間音頻。
BAT的卓越能力
BAT以其出色的空間推理能力脫穎而出,準確率接近77%。其底層的空間音頻編碼器在音源識別上達到超過50%的平均精確度、約18度的聲音方向平均角誤差,以及在距離估算上僅1.64英尺的誤差率和32.54%的準確率。
來自德克薩斯大學和上海交通大學的研究團隊為聲音事件偵測、空間定位和距離感知開發了空間音頻光譜變壓器(SPATIAL-AST),並設計了SPATIALSOUNDQA用於空間問答任務,之後將SPATIAL-AST與LLaMA-2 LLM結合,創造出了BAT。
BAT測試:聲音類型、方向及距離
聲音類型問題:
Q:你能在錄音中檢測到哪些聲音事件?
A:嬰兒的笑聲。
Q:辨識音頻剪輯中的不同聲音。
A:心跳。
Q:大約在9英尺外有什麼聲音?
A:水花聲;對話聲。
Q:從左、後方和上方傳來的聲音是哪些?
A:音樂;樂器;鐵音盤。
方向和距離問題:
Q:心音來自哪個方向?
A:左邊,後方,下方;距離3英尺。
Q:音樂傳自哪裡?
A:左邊,後方,下方;距離10英尺。
空間推理問題:
Q:喘息聲是否比鳥翅膀扇動聲更近?
A:不是。
Q:爆炸聲和聲音是在左邊嗎?
A:是。
Q:電動剃鬚刀的聲音在瀑布後面嗎?
A:是。
Q:估算說話聲和狗吠聲之間的距離。
A:1.64英尺。
Q:什麼聲音在震動上方?
A:呱呱聲;青蛙。
Q:歌聲在蒸氣聲的左邊還是右邊?
A:左邊。
正如研究人員所言,「這項任務需要感知與複雜推理的結合。」模型必須按類別分開聲音來源,空間定位每個來源,並分析其在上下文中的關係。
擴展空間音頻的視野
開發可以理解空間音頻的LLMs為虛擬實境、遊戲及音頻工程等領域帶來了巨大潛力。「這將導致更具沉浸感和真實感的體驗。」研究人員強調。
此外,解釋空間音頻的能力還可以增強像機器人及自駕車等具身體的AI系統。未來在環繞聲技術上的進步將進一步提升這些體驗,使其更加生動。
研究人員自信地總結道,BAT將顯著推進空間音頻的感知與推理,為多模態LLMs的演變作出貢獻。