バイノーラル聴覚とAIにおけるその重要性
人間は優れた感覚能力を持ち、特にバイノーラル聴覚によって音の種類を識別し、その方向や距離を把握することができます。さらには、同時に発生する複数の音源を区別することも可能です。
現在、大規模言語モデル(LLM)は音声質問応答、音声認識、翻訳、合成において優れた能力を発揮していますが、リアルな空間音声入力にはまだ課題があります。
BATの紹介:空間音声LLMの革新
研究者たちは、3D環境内の音を推論することができる空間音声ベースのLLM「BAT」の開発に成功しました。このモデルは、笑い声や心拍音、水の跳ねる音など、様々な音を効果的に分類し、音の方向(右、左、下)や距離(1〜10フィート)を推定します。BATは、特に音が重なる複雑な場面で豊かな空間推論能力を示します。
研究者によると、「空間音声のLLMへの統合は、真のマルチモーダルAIシステムへの重要な前進です。」
AIと機械学習における空間音声の課題
「バーチャルサラウンドサウンド」とも呼ばれる空間音声は、3D空間における音源の知覚を生み出し、仮想現実(VR)や高度なシアターシステム、Metaバースなどの新興技術において体験を強化します。しかし、3D環境での音源の特定や解釈には大きな課題があります。
音響シミュレーション技術は進化してきましたが、BATの開発者は、既存アプリケーションがしばしば一貫性に欠け、音源の距離や方向など「重要な真実ラベル」が不足していることを指摘しています。さらに、音イベントローカリゼーションと検出(SELD)は「浅い空間音声知覚」に注力していることが多いです。
その他の注目すべき応用には、音声アプリケーションのためのChatGPT統合「AudioGPT」、クリップ内の音を分析する「LTU」、普遍的な音の理解を目指す「Qwen-audio」があります。しかし、これらのモデルは、動的で複雑な3D環境における空間音声の知覚と推論には成功していません。
BATの優れた能力
BATは、約77%の精度を達成し、その空間音声エンコーダーは音の種類特定において50%を超える平均適合率を達成し、音の方向に関しては18度の平均角誤差を持ち、距離推定ではわずか1.64フィートの距離誤差率を32.54%の精度で示しました。
テキサス大学と上海交通大学の専門家たちで構成された研究チームは、音声イベントの検出、空間ローカリゼーション、距離知覚のために、空間音声スペクトログラム変換器(SPATIAL-AST)と、空間質問応答タスクのためのSPATIALSOUNDQAを開発しました。これらをLLaMA-2 LLMに統合することでBATを完成させました。
BATのテスト:音の種類、方向、距離
音の種類に関する質問:
- Q: 録音内で検出可能な音のイベントは?
A: 赤ちゃんの笑い声。
- Q: 音声クリップ内の異なる音を特定してください。
A: 心拍音。
- Q: 約9フィート先にある音は?
A: 水が跳ねる音;会話。
- Q: 左、後ろ、上から来る音は?
A: 音楽;楽器;スチールパン。
方向と距離に関する質問:
- Q: 心音はどの方向から来ていますか?
A: 左、後ろ、下;3フィート先。
- Q: 音楽はどこから発生していますか?
A: 左、後ろ、下;10フィート先。
空間推論に関する質問:
- Q: 喘鳴音は鳥の羽ばたく音よりも近いですか?
A: いいえ。
- Q: 爆発音と会話音は左側にありますか?
A: はい。
- Q: 電動シェーバーの音は滝の後ろにありますか?
A: はい。
研究者たちは、「このタスクには知覚と複雑な推論が必要です。」と述べています。モデルは音源を種類ごとに分離し、それぞれの音源を空間的に特定し、文脈における関係を分析しなければなりません。
空間音声の可能性を広げる
空間音声を理解するLLMの開発は、仮想現実、ゲーム、音響工学などの分野で大きな可能性を秘めています。「これは、より没入感のあるリアルな体験につながる可能性があります」と研究者たちは主張します。
さらに、空間音声を解釈する能力は、ロボットや自律走行車などの具現化されたAIシステムの向上にも寄与します。今後のアンビソニクスの進歩は、これらの体験をさらにリアルなものにするでしょう。
研究者たちは、自信を持ってBATが空間音声の知覚と推論を大きく進展させ、マルチモーダルLLMの進化に寄与すると結論づけています。