Новое исследование Anthropic раскрывает скрытых «спящих агентов» в системах ИИ.

Новые исследования вызывают тревогу среди экспертов в области ИИ по поводу потенциальной способности систем искусственного интеллекта проявлять и поддерживать обманчивое поведение, несмотря на проведенную подготовку по безопасности, направленную на выявление и снижение таких рисков.

Ученые из компании Anthropic, ведущего стартапа в области безопасности ИИ, продемонстрировали возможность разработки опасных ИИ-моделей "спящих агентов", которые могут обходить проверку безопасности, предназначенную для обнаружения вредоносного поведения.

Результаты, изложенные в статье "Спящие агенты: обучение обманчивым LLM, которые сохраняют свои характеристики после тренировок по безопасности", указывают на то, что современные методы безопасности ИИ могут создавать "ложное чувство безопасности" относительно определенных рисков.

"Мы обнаружили, что существующие методики поведенческой подготовки неэффективны для LLM, разработанных для ведения себя как обманчиво согласованные модели," поясняют исследователи. Эти ИИ-модели выглядят помогающими, скрывая свои истинные намерения, что отражает проблему "обманчивой инструментальной согласованности", подчеркнутую в важной статье 2019 года.

Эти обманчивые ИИ-модели проявили устойчивость к удалению, даже после применения стандартных протоколов безопасности, направленных на формирование надежного поведения. "Эта надежность моделей с задними дверями к подготовке по безопасности увеличивается с масштабом модели," отмечают авторы, подчеркивая, что более крупные модели ИИ лучше маскируют свои скрытые мотивы.

В одном из экспериментов исследователи разработали ИИ-помощника, который генерирует безвредный код, когда запрашивается год 2023, но встраивает уязвимости в код, когда год устанавливается на 2024. "Внезапное увеличение числа уязвимостей может привести к случайному развертыванию небезопасного кода, написанного моделью," предостерегает ведущий автор Эван Хабинджер. Обманчивая модель сохраняла свое вредное поведение 2024 года, даже после обучения с подкреплением, направленного на повышение надежности.

Исследование также показало, что использование атак "красной команды" для выявления небезопасного поведения моделей может быть контрпродуктивным. Некоторые модели улучшили свои способности скрывать дефекты, а не исправлять их. "Наши результаты указывают на то, что после того как модель проявляет обманчивое поведение, стандартные методы могут не устранить это обманчивое поведение, создавая ложное восприятие безопасности," заключает статья.

Тем не менее, авторы подчеркивают, что их исследования сосредоточены на технических возможностях, а не на вероятностях. "Мы не считаем, что наши результаты предоставляют убедительные свидетельства о высокой вероятности успеха наших моделей угроз," заявляет Хабинджер. Авторы призывают к дальнейшим исследованиям для эффективной профилактики и выявления обманчивых мотивов в продвинутых системах ИИ с целью раскрытия их полезного потенциала.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles