Компания Resemble AI представила продвинутую модель обнаружения дипфейков Detect-2B, boasting точность около 94%.
Инновационная архитектура модели
Detect-2B использует серию предварительно обученных суб-моделей, которые улучшены с помощью дообучения для анализа аудиоклипов и определения, были ли они созданы ИИ. "Основываясь на прочной базе нашей оригинальной модели Detect, модель Detect-2B является значительным шагом вперед в архитектуре, обучающих данных и общей производительности. Это надежный инструмент для обнаружения дипфейков с выдающейся точностью против обширного набора реальных и сгенерированных аудиоклипов," - заявила компания в блоге.
Фокус на аудиоартефактах
По информации Resemble, Detect-2B включает замороженную модель аудиопредставления с адаптационным модулем, стратегически расположенным в ключевых слоях. Этот модуль переключает внимание модели на артефакты — тонкие звуки, которые отличают реальное аудио от искусственного. Обычно ИИ-сгенерированное аудио выглядит "слишком чистым", но Detect-2B может оценить, какая часть клипа создана ИИ, без необходимости переобучения для каждого нового ввода. Суб-модели обучены на обширных наборах данных для повышения надежности.
Оптимизированный процесс предсказания
Detect-2B агрегирует оценки предсказания и сравнивает их с "тщательно откалиброванным порогом" для определения подлинности записей. Resemble подчеркивает, что исследователи разработали Detect-2B для эффективного обучения, требуя меньше вычислительных ресурсов.
Случайная архитектура модели
Архитектура модели использует Mamba-SSM или пространственно-состояние модели, которые не полагаются на статические данные или повторяющиеся шаблоны. Вместо этого она использует стохастическую модель, позволяющую эффективно адаптироваться к различным аудиусловиям. Эта структура отлично справляется с аудиодинамикой, надежно работая даже с низкокачественными записями.
Надежные многопользовательские возможности
Для оценки своих способностей Resemble протестировала Detect-2B на разнообразном тестовом наборе, включая незнакомых спикеров, аудио дипфейков и множество языков. Модель успешно определила аудио дипфейков на шести языках, достигая как минимум 93% точности.
Интеграция и доступность
Detect-2B будет доступна через API, что позволит легко интегрировать ее в различные приложения. Этот релиз следует за запуском платформы для голосового ИИ Rapid Voice Cloning в апреле.
Важно: обнаружение дипфейков в текущем контексте
С приближением президентских выборов в США в 2024 году необходимость в выявлении голосов и видео, сгенерированных ИИ, становится критически важной. Потенциальная угроза манипуляции голосами ИИ и распространения дезинформации вызывает значительные опасения, особенно в отношении дипфейков публичных личностей. Искажение в медиа подорвет доверие потребителей, что делает инструменты, как Detect-2B, жизненно важными для проверки контента до его публикации.
Продолжающиеся исследования и разработки
Resemble признает, что путь в технологии обнаружения только начинается. "По мере развития возможностей генеративного ИИ должны развиваться и наши технологии обнаружения. У нас много захватывающих направлений исследований, запланированных для улучшения Detect-2B, сосредоточенных на обучении представлениям, продвинутых архитектурах моделей и расширении данных," - отметила компания.