Бинауральное Слушание и Его Значение в ИИ
Люди обладают исключительными сенсорными способностями, среди которых бинауральное слушание, позволяющее определять типы звуков, их направление и расстояние. Мы можем различать несколько источников звука, звучащих одновременно.
Хотя крупные языковые модели (LLMs) прекрасно справляются с аудио вопросами, распознаванием речи, переводом и синтезом, они пока не могут эффективно обрабатывать пространственные аудиовходы из реального мира.
Представляем BAT: Прорыв в Пространственном Аудио LLMs
Исследователи достигли значительного прогресса с BAT, первой LLM на основе пространственного аудио, способной рассуждать о звуках в трехмерной среде. Эта модель эффективно классифицирует различные типы звуков (например, смех, сердцебиение, плескание воды), определяет направление звука (справа, слева, снизу) и оценивает расстояние (от 1 до 10 футов). BAT демонстрирует сильные способности к пространственному рассуждению, особенно в сложных сценариях с наложением звуков.
Исследователи утверждают: «Интеграция пространственного аудио в LLMs является важным шагом к настоящим мультимодальным системам ИИ».
Проблемы Пространственного Аудио в ИИ и Машинном Обучении
Пространственное аудио, часто называемое "виртуальным объемным звуком", создает восприятие источников звука в трехмерном пространстве, улучшая впечатления от виртуальной реальности (VR) и современных театральных систем, а также новых технологий, таких как метавселенная. Однако локализация и интерпретация источников звука в трехмерных средах представляют собой серьезную проблему для ИИ и машинного обучения (ML).
Хотя методы акустической симуляции были усовершенствованы, разработчики BAT отмечают, что существующие приложения часто страдают от непоследовательности и «критически важных меток истинного результата», таких как дистанция и направление источника. Кроме того, локализация и обнаружение звуковых событий (SELD) зачастую фокусируется на «поверхностном восприятии пространственного аудио».
Другие примечательные приложения включают AudioGPT, который интегрирует ChatGPT для различных аудио-приложений; LTU, который позволяет моделям анализировать звуки в клипах; и Qwen-audio, предназначенный для универсального понимания аудио. Тем не менее, ни одна из этих моделей не способна успешно воспринимать и рассуждать о пространственном аудио в динамичных сложных 3D-средах.
Уникальные Способности BAT
BAT отличается своими способностями к пространственному рассуждению, достигая впечатляющей точности почти 77%. Основной кодировщик пространственного аудио достиг среднего значения точности более 50% для идентификации типов звуков, среднего углового отклонения около 18 градусов для направления звука и погрешности расстояния всего 1,64 фута с точностью 32,54% для оценки расстояния.
Команда исследователей из Университета Техаса и Шанхайского Цзяотунского университета разработала Трансформер Спектрограмм Пространственного Аудио (SPATIAL-AST) для обнаружения звуковых событий, пространственной локализации и восприятия расстояния, а также SPATIALSOUNDQA для пространственных задач вопрос-ответ. Затем они интегрировали SPATIAL-AST с LLaMA-2 LLM для создания BAT.
Тестирование BAT: Тип Звука, Направление и Расстояние
Вопросы о типах звука:
В: Какие звуковые события вы можете обнаружить в записи?
О: Смех ребенка.
В: Назовите различные звуки в аудиоклипе.
О: Сердцебиение.
В: Какие звуки слышны примерно на расстоянии 9 футов?
О: Плескание; речь.
В: Какие звуки исходят слева, сзади и сверху?
О: Музыка; музыкальный инструмент; стальной барабан.
Вопросы о направлении и расстоянии:
В: Из какого направления исходят звуки сердца?
О: Слева, сзади, снизу; на расстоянии 3 фута.
В: Откуда исходит музыка?
О: Слева, сзади, снизу; на расстоянии 10 футов.
Вопросы пространственного рассуждения:
В: Находится ли звук хрипения ближе, чем звук птичьего крыла?
О: Нет.
В: Звуки взрыва и речи находятся слева?
О: Да.
В: Звук электрической бритвы слышен за водопадом?
О: Да.
В: Оцените расстояние от звука речи до звука собаки.
О: 1,64 фута.
В: Какой звук выше вибрации?
О: Кваканье; лягушка.
В: Находится ли звук пения слева или справа от звука пара?
О: Слева.
Как утверждают исследователи, «эта задача требует как восприятия, так и сложного рассуждения». Модель должна отделить источники звуков по классам, пространственно локализовать каждый источник и анализировать их взаимосвязи в контексте.
Расширение Горизонтов Пространственного Аудио
Разработка LLM, способных понимать пространственное аудио, открывает огромные возможности в таких областях, как виртуальная реальность, игры и аудиоинженерия. «Это может привести к более захватывающим и реалистичным впечатлениям», утверждают исследователи.
Кроме того, способность интерпретировать пространственное аудио может улучшить встроенные системы ИИ, такие как роботы и автономные транспортные средства. Будущие достижения в амбиозике могут еще больше обогатить эти впечатления, делая их более жизненными.
Исследователи с уверенностью заключают, что BAT значительно продвинет восприятие и рассуждение о пространственном аудио, способствуя эволюции мультимодальных LLM.