Как LLM осваивают дифференциацию пространственных звуков

Бинауральное Слушание и Его Значение в ИИ

Люди обладают исключительными сенсорными способностями, среди которых бинауральное слушание, позволяющее определять типы звуков, их направление и расстояние. Мы можем различать несколько источников звука, звучащих одновременно.

Хотя крупные языковые модели (LLMs) прекрасно справляются с аудио вопросами, распознаванием речи, переводом и синтезом, они пока не могут эффективно обрабатывать пространственные аудиовходы из реального мира.

Представляем BAT: Прорыв в Пространственном Аудио LLMs

Исследователи достигли значительного прогресса с BAT, первой LLM на основе пространственного аудио, способной рассуждать о звуках в трехмерной среде. Эта модель эффективно классифицирует различные типы звуков (например, смех, сердцебиение, плескание воды), определяет направление звука (справа, слева, снизу) и оценивает расстояние (от 1 до 10 футов). BAT демонстрирует сильные способности к пространственному рассуждению, особенно в сложных сценариях с наложением звуков.

Исследователи утверждают: «Интеграция пространственного аудио в LLMs является важным шагом к настоящим мультимодальным системам ИИ».

Проблемы Пространственного Аудио в ИИ и Машинном Обучении

Пространственное аудио, часто называемое "виртуальным объемным звуком", создает восприятие источников звука в трехмерном пространстве, улучшая впечатления от виртуальной реальности (VR) и современных театральных систем, а также новых технологий, таких как метавселенная. Однако локализация и интерпретация источников звука в трехмерных средах представляют собой серьезную проблему для ИИ и машинного обучения (ML).

Хотя методы акустической симуляции были усовершенствованы, разработчики BAT отмечают, что существующие приложения часто страдают от непоследовательности и «критически важных меток истинного результата», таких как дистанция и направление источника. Кроме того, локализация и обнаружение звуковых событий (SELD) зачастую фокусируется на «поверхностном восприятии пространственного аудио».

Другие примечательные приложения включают AudioGPT, который интегрирует ChatGPT для различных аудио-приложений; LTU, который позволяет моделям анализировать звуки в клипах; и Qwen-audio, предназначенный для универсального понимания аудио. Тем не менее, ни одна из этих моделей не способна успешно воспринимать и рассуждать о пространственном аудио в динамичных сложных 3D-средах.

Уникальные Способности BAT

BAT отличается своими способностями к пространственному рассуждению, достигая впечатляющей точности почти 77%. Основной кодировщик пространственного аудио достиг среднего значения точности более 50% для идентификации типов звуков, среднего углового отклонения около 18 градусов для направления звука и погрешности расстояния всего 1,64 фута с точностью 32,54% для оценки расстояния.

Команда исследователей из Университета Техаса и Шанхайского Цзяотунского университета разработала Трансформер Спектрограмм Пространственного Аудио (SPATIAL-AST) для обнаружения звуковых событий, пространственной локализации и восприятия расстояния, а также SPATIALSOUNDQA для пространственных задач вопрос-ответ. Затем они интегрировали SPATIAL-AST с LLaMA-2 LLM для создания BAT.

Тестирование BAT: Тип Звука, Направление и Расстояние

Вопросы о типах звука:

В: Какие звуковые события вы можете обнаружить в записи?

О: Смех ребенка.

В: Назовите различные звуки в аудиоклипе.

О: Сердцебиение.

В: Какие звуки слышны примерно на расстоянии 9 футов?

О: Плескание; речь.

В: Какие звуки исходят слева, сзади и сверху?

О: Музыка; музыкальный инструмент; стальной барабан.

Вопросы о направлении и расстоянии:

В: Из какого направления исходят звуки сердца?

О: Слева, сзади, снизу; на расстоянии 3 фута.

В: Откуда исходит музыка?

О: Слева, сзади, снизу; на расстоянии 10 футов.

Вопросы пространственного рассуждения:

В: Находится ли звук хрипения ближе, чем звук птичьего крыла?

О: Нет.

В: Звуки взрыва и речи находятся слева?

О: Да.

В: Звук электрической бритвы слышен за водопадом?

О: Да.

В: Оцените расстояние от звука речи до звука собаки.

О: 1,64 фута.

В: Какой звук выше вибрации?

О: Кваканье; лягушка.

В: Находится ли звук пения слева или справа от звука пара?

О: Слева.

Как утверждают исследователи, «эта задача требует как восприятия, так и сложного рассуждения». Модель должна отделить источники звуков по классам, пространственно локализовать каждый источник и анализировать их взаимосвязи в контексте.

Расширение Горизонтов Пространственного Аудио

Разработка LLM, способных понимать пространственное аудио, открывает огромные возможности в таких областях, как виртуальная реальность, игры и аудиоинженерия. «Это может привести к более захватывающим и реалистичным впечатлениям», утверждают исследователи.

Кроме того, способность интерпретировать пространственное аудио может улучшить встроенные системы ИИ, такие как роботы и автономные транспортные средства. Будущие достижения в амбиозике могут еще больше обогатить эти впечатления, делая их более жизненными.

Исследователи с уверенностью заключают, что BAT значительно продвинет восприятие и рассуждение о пространственном аудио, способствуя эволюции мультимодальных LLM.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles