双耳听觉及其在人工智能中的重要性
人类拥有卓越的感官能力,特别是双耳听觉,使我们能够识别声音类型、确定声音方向并评估声音距离,甚至可以区分同时发生的多个声源。尽管大型语言模型(LLM)在音频问答、语音识别、翻译和合成方面表现出色,但它们在处理真实世界的空间音频输入时仍面临挑战。
引入BAT:空间音频LLM的突破
研究者们在BAT方面取得了重要进展,这被称为首个基于空间音频的LLM,能够对三维环境中的声音进行推理。该模型有效分类多种音频类型(如笑声、心跳、溅水声),确定声音方向(左、右、下方),并评估距离(从1到10英尺)。BAT在复杂的叠加声场中表现出色,展现了强大的空间推理能力。研究者指出:“将空间音频整合到LLM中是朝着真正多模态人工智能系统的重大进展。”
人工智能与机器学习中的空间音频挑战
空间音频通常被称为“虚拟环绕声”,在虚拟现实(VR)、高级影院系统以及新兴元宇宙技术中增强了体验。然而,在三维环境中本地化和解读声源对于人工智能和机器学习来说是一个重大挑战。尽管声学仿真技术已取得进展,但BAT的开发者指出,现有应用通常缺乏一致性和“关键的真实标签”,如声源距离和方向。此外,声音事件本地化和检测(SELD)往往侧重于“浅层空间音频感知”。
其他显著应用包括AudioGPT,结合了ChatGPT以满足多样化的音频需求;LTU,允许模型分析音频片段中的声音;以及Qwen-audio,旨在实现普适音频理解。然而,这些模型难以在动态复杂的三维环境中成功感知和推理空间音频。
BAT的卓越能力
BAT凭借其空间推理能力脱颖而出,准确率达到近77%。其底层空间音频编码器在声音类型识别中实现了超过50%的平均精度,声音方向的均方误差约为18度,距离估计的误差率仅为1.64英尺,准确率为32.54%。研究团队由来自德克萨斯大学和上海交通大学的专家组成,开发了空间音频声谱图变换器(SPATIAL-AST)用于声音事件检测、空间本地化和距离感知,并结合SPATIALSOUNDQA进行空间问答任务,然后将SPATIAL-AST与LLaMA-2 LLM整合,创造了BAT。
测试BAT:声音类型、方向与距离
声音类型问题:
问:你能检测到录音中的哪些声音事件?
答:宝宝的笑声。
问:识别音频片段中的不同声音。
答:心跳声。
问:约9英尺远的声音是什么?
答:水声;对话声。
问:来自左侧、后面和上方的声音是什么?
答:音乐;乐器声;钢鼓声。
方向和距离问题:
问:心音来自哪个方向?
答:左侧,后面,下方;距离3英尺。
问:音乐来源于哪里?
答:左侧,后面,下方;距离10英尺。
空间推理问题:
问:喘息声比鸟扇翅声更近吗?
答:不。
问:爆炸声和对话声在左边吗?
答:是的。
问:电动剃须刀的声音在瀑布后面吗?
答:是的。
问:从对话声到狗叫声的距离是多少?
答:1.64英尺。
问:震动声上方是什么声音?
答:呱呱声;青蛙。
问:歌声在蒸汽声的左边还是右边?
答:左边。
如研究人员所言:“这个任务不仅要求感知,还要求复杂的推理。”模型必须按类别分离声源,空间定位每个声源,并分析它们在上下文中的关系。
拓展空间音频的视野
具备空间音频理解能力的LLM的开发在虚拟现实、游戏和音频工程等领域展现出巨大潜力。研究人员表示:“这将带来更沉浸和真实的体验。”此外,解读空间音频的能力可以增强机器人的化身式人工智能系统以及自动驾驶汽车。未来的环绕声技术进步将进一步丰富这些体验,使其更加逼真。
研究人员自信地总结道,BAT将显著推动空间音频的感知和推理发展,助力多模态LLM的演变。