LLMが空間音の識別をマスターする方法

Home AIニュース LLMが空間音の識別をマスターする方法

バイノーラル聴覚とAIにおけるその重要性

人間は優れた感覚能力を持ち、特にバイノーラル聴覚によって音の種類を識別し、その方向や距離を把握することができます。さらには、同時に発生する複数の音源を区別することも可能です。

現在、大規模言語モデル（LLM）は音声質問応答、音声認識、翻訳、合成において優れた能力を発揮していますが、リアルな空間音声入力にはまだ課題があります。

BATの紹介：空間音声LLMの革新

研究者たちは、3D環境内の音を推論することができる空間音声ベースのLLM「BAT」の開発に成功しました。このモデルは、笑い声や心拍音、水の跳ねる音など、様々な音を効果的に分類し、音の方向（右、左、下）や距離（1〜10フィート）を推定します。BATは、特に音が重なる複雑な場面で豊かな空間推論能力を示します。

研究者によると、「空間音声のLLMへの統合は、真のマルチモーダルAIシステムへの重要な前進です。」

AIと機械学習における空間音声の課題

「バーチャルサラウンドサウンド」とも呼ばれる空間音声は、3D空間における音源の知覚を生み出し、仮想現実（VR）や高度なシアターシステム、Metaバースなどの新興技術において体験を強化します。しかし、3D環境での音源の特定や解釈には大きな課題があります。

音響シミュレーション技術は進化してきましたが、BATの開発者は、既存アプリケーションがしばしば一貫性に欠け、音源の距離や方向など「重要な真実ラベル」が不足していることを指摘しています。さらに、音イベントローカリゼーションと検出（SELD）は「浅い空間音声知覚」に注力していることが多いです。

その他の注目すべき応用には、音声アプリケーションのためのChatGPT統合「AudioGPT」、クリップ内の音を分析する「LTU」、普遍的な音の理解を目指す「Qwen-audio」があります。しかし、これらのモデルは、動的で複雑な3D環境における空間音声の知覚と推論には成功していません。

BATの優れた能力

BATは、約77%の精度を達成し、その空間音声エンコーダーは音の種類特定において50%を超える平均適合率を達成し、音の方向に関しては18度の平均角誤差を持ち、距離推定ではわずか1.64フィートの距離誤差率を32.54%の精度で示しました。

テキサス大学と上海交通大学の専門家たちで構成された研究チームは、音声イベントの検出、空間ローカリゼーション、距離知覚のために、空間音声スペクトログラム変換器（SPATIAL-AST）と、空間質問応答タスクのためのSPATIALSOUNDQAを開発しました。これらをLLaMA-2 LLMに統合することでBATを完成させました。

BATのテスト：音の種類、方向、距離

音の種類に関する質問:

- Q: 録音内で検出可能な音のイベントは？

A: 赤ちゃんの笑い声。

- Q: 音声クリップ内の異なる音を特定してください。

A: 心拍音。

- Q: 約9フィート先にある音は？

A: 水が跳ねる音；会話。

- Q: 左、後ろ、上から来る音は？

A: 音楽；楽器；スチールパン。

方向と距離に関する質問:

- Q: 心音はどの方向から来ていますか？

A: 左、後ろ、下；3フィート先。

- Q: 音楽はどこから発生していますか？

A: 左、後ろ、下；10フィート先。

空間推論に関する質問:

- Q: 喘鳴音は鳥の羽ばたく音よりも近いですか？

A: いいえ。

- Q: 爆発音と会話音は左側にありますか？

A: はい。

- Q: 電動シェーバーの音は滝の後ろにありますか？

A: はい。

研究者たちは、「このタスクには知覚と複雑な推論が必要です。」と述べています。モデルは音源を種類ごとに分離し、それぞれの音源を空間的に特定し、文脈における関係を分析しなければなりません。

空間音声の可能性を広げる

空間音声を理解するLLMの開発は、仮想現実、ゲーム、音響工学などの分野で大きな可能性を秘めています。「これは、より没入感のあるリアルな体験につながる可能性があります」と研究者たちは主張します。

さらに、空間音声を解釈する能力は、ロボットや自律走行車などの具現化されたAIシステムの向上にも寄与します。今後のアンビソニクスの進歩は、これらの体験をさらにリアルなものにするでしょう。

研究者たちは、自信を持ってBATが空間音声の知覚と推論を大きく進展させ、マルチモーダルLLMの進化に寄与すると結論づけています。

オープンAI事務所前での抗議：AIとAGIの軍事利用に反対する市民の声

スーパーボウル広告後、Microsoft Copilot AIがGoogleとAppleのアプリストアランキングで急上昇 - 一部エラーあり

Most people like

Critical Thinking Chatbots

AIチャットボットを活用して、反論を提示したり、鋭い質問を投げかけたり、幅広いアイデアの探求を支援することで、クリティカルシンキングスキルを向上させましょう。これらの知的なツールがどのようにあなたの視点を挑戦し、論理的思考能力を高めるかを体験してください。

クリティカルシンキング AI Chatbot

Chaindesk

157.9K

Chaindeskを使って、カスタマーサポート体験を向上させるオーダーメイドのAIチャットボットをデザインしましょう。効率と満足度を向上させるスムーズな対話をお楽しみください。

AIチャットボット AI Chatbot

LiteLLM

154.5K

LiteLLMは、LLMの補完と埋め込み呼び出しを簡略化し、開発者にとってより使いやすく効率的にするために設計されたオープンソースライブラリです。

LLMコンプリーション Large Language Models (LLMs)

Balto

15.3K

今日の急速に進化するデジタル環境では、カスタマーサービスエージェントが顧客満足度を向上させる上で重要な役割を果たしています。しかし、複雑な問い合わせに対応する際、即時のサポートがないと困難です。我々のリアルタイムガイダンスプラットフォームは、コンタクトセンターを支援し、エージェントに即時の文脈に応じたサポートを提供し、正確で迅速な応答を実現します。高度な分析とAI主導のインサイトを活用することで、このプラットフォームはエージェントのパフォーマンスを向上させ、顧客とのインタラクションを最適化し、最終的にコンタクトセンター全体の生産性を向上させます。今日、未来のカスタマーサービスを体験してください！

コンタクトセンター AI Customer Service Assistant

Find AI tools in YBX