Исследование выявило уязвимости в Alexa, Siri и Google Assistant к злонамеренным командам

Недавнее исследование учёных Amazon Web Services (AWS) выявило серьёзные уязвимости в больших языковых моделях (LLM), способных распознавать и отвечать на речь. В статье "SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models" рассказывается о том, как эти системы ИИ можно манипулировать, чтобы генерировать вредные или неэтичные ответы с помощью стратегически спроектированных аудиатаκов.

В условиях растущей популярности голосовых интерфейсов — от умных колонок до ИИ-ассистентов — обеспечение их безопасности и надежности становится жизненно важным. Исследование показывает, что, несмотря на существующие меры безопасности, модели обработки устной речи (SLM) остаются сильно подвержены "враждебным атакам". Эти атаки включают незначительные изменения аудиовхода, которые невозможно обнаружить человеку, но которые могут радикально изменить выходные данные модели.

В качестве яркого примера в исследовании AWS приводится случай, когда система ИИ, основанная на голосовых командах, может быть заставлена предоставить неэтичные инструкции — например, как ограбить банк — в результате враждебной атаки. Для борьбы с этими уязвимостями авторы предлагают механизм предобработки.

Взлом SLM с помощью враждебного аудио

Авторы исследования сообщают, что их эксперименты выявили шокирующую уязвимость SLM, средний уровень успеха взлома с использованием враждебных искажений составил 90%, и 10% для переносных атак на набор данных с вредоносными вопросами. Они предупреждают о серьёзных последствиях, включая возможность масштабного использования этих уязвимостей злоумышленниками.

Применяя метод градиентного спуска, исследователи создали враждебные примеры, которые постоянно побуждали SLM генерировать токсичные выходные данные по 12 категориям, включая откровенное насилие и ненависть. Замечательно, что при полном доступе к модели им удалось достичь 90% успешности в преодолении её ограничений безопасности.

Исследование подчеркивает вероятность враждебных атак на различные модели ИИ для голосовых вопросов и ответов. Применяя стратегии межмодельного и межзапросного переноса, они вызывали неожиданные реакции, что подтверждает необходимость разработки надежных и переносимых защит.

Атаки в "чёрном ящике": реальная угроза

Еще более тревожным является то, что аудиатаκи, разработанные для одной SLM, часто успешно переносятся на другие модели, даже без прямого доступа — что стало распространённой практикой, так как большинство коммерческих провайдеров предоставляют ограниченный доступ к API. Хотя уровень успешности атак упал до 10% в этом контексте "чёрного ящика", это всё равно представляет собой значительную уязвимость.

Главный автор Рагувир Перри заявил: "Переносимость этих атак на разные архитектуры моделей указывает на фундаментальный недостаток в нашем текуще подходе к обучению этих систем для обеспечения безопасности и согласования".

Импликации этого исследования серьёзны, так как компании всё чаще интегрируют голосовой ИИ для таких функций, как обслуживание клиентов и анализ данных. Кроме риска репутационных потерь из-за неисправного ИИ, враждебные атаки могут способствовать мошенничеству, шпионажу или даже физическому вреду в автоматизированных средах.

Контрмеры и будущее

К счастью, исследователи предлагают различные контрмеры, такие как добавление случайного шума к аудиовходам — это называется случайное сглаживание. Их эксперименты показали, что эта техника значительно снижает уровень успеха враждебных атак, хотя авторы признают, что это не является безошибочным решением.

"Защита от враждебных атак — это продолжающийся гонка вооружений", — заметил Перри. "Поскольку возможности этих моделей растут, растёт и потенциал для их неправильного использования. Продолжение инвестиций в повышение их безопасности и устойчивости имеет решающее значение".

Изученные SLM были обучены на диалоговых данных, демонстрируя передовое выполнение задач распознавания речи с более чем 80% уровнем безопасности и полезности до осуществления атак. Это подчеркивает сложность баланса между возможностями и безопасностью по мере эволюции технологий.

Поскольку ведущие технологические компании стремятся разработать более мощный голосовой ИИ, это исследование является своевременным напоминанием о том, что безопасность должна быть приоритетом, а не второстепенным вопросом. Сотрудничество между регуляторами и промышленными группами будет иметь решающее значение для установления строгих стандартов и протоколов тестирования.

Как подчеркивает соавтор Катрин Кирхгоф, "Мы находимся на переломном моменте с этой технологией. Она имеет огромный потенциал для блага общества, но при неправильной разработке может также причинить вред. Это исследование представляет собой важный шаг к максимизации преимуществ голосового ИИ при минимизации его рисков".

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles