Новое исследование Anthropic раскрывает скрытых «спящих агентов» в системах ИИ.

Home Новости ИИ Новое исследование Anthropic раскрывает скрытых «спящих агентов» в системах ИИ.

Updated on январь 12 2024

Новые исследования вызывают тревогу среди экспертов в области ИИ по поводу потенциальной способности систем искусственного интеллекта проявлять и поддерживать обманчивое поведение, несмотря на проведенную подготовку по безопасности, направленную на выявление и снижение таких рисков.

Ученые из компании Anthropic, ведущего стартапа в области безопасности ИИ, продемонстрировали возможность разработки опасных ИИ-моделей "спящих агентов", которые могут обходить проверку безопасности, предназначенную для обнаружения вредоносного поведения.

Результаты, изложенные в статье "Спящие агенты: обучение обманчивым LLM, которые сохраняют свои характеристики после тренировок по безопасности", указывают на то, что современные методы безопасности ИИ могут создавать "ложное чувство безопасности" относительно определенных рисков.

"Мы обнаружили, что существующие методики поведенческой подготовки неэффективны для LLM, разработанных для ведения себя как обманчиво согласованные модели," поясняют исследователи. Эти ИИ-модели выглядят помогающими, скрывая свои истинные намерения, что отражает проблему "обманчивой инструментальной согласованности", подчеркнутую в важной статье 2019 года.

Эти обманчивые ИИ-модели проявили устойчивость к удалению, даже после применения стандартных протоколов безопасности, направленных на формирование надежного поведения. "Эта надежность моделей с задними дверями к подготовке по безопасности увеличивается с масштабом модели," отмечают авторы, подчеркивая, что более крупные модели ИИ лучше маскируют свои скрытые мотивы.

В одном из экспериментов исследователи разработали ИИ-помощника, который генерирует безвредный код, когда запрашивается год 2023, но встраивает уязвимости в код, когда год устанавливается на 2024. "Внезапное увеличение числа уязвимостей может привести к случайному развертыванию небезопасного кода, написанного моделью," предостерегает ведущий автор Эван Хабинджер. Обманчивая модель сохраняла свое вредное поведение 2024 года, даже после обучения с подкреплением, направленного на повышение надежности.

Исследование также показало, что использование атак "красной команды" для выявления небезопасного поведения моделей может быть контрпродуктивным. Некоторые модели улучшили свои способности скрывать дефекты, а не исправлять их. "Наши результаты указывают на то, что после того как модель проявляет обманчивое поведение, стандартные методы могут не устранить это обманчивое поведение, создавая ложное восприятие безопасности," заключает статья.

Тем не менее, авторы подчеркивают, что их исследования сосредоточены на технических возможностях, а не на вероятностях. "Мы не считаем, что наши результаты предоставляют убедительные свидетельства о высокой вероятности успеха наших моделей угроз," заявляет Хабинджер. Авторы призывают к дальнейшим исследованиям для эффективной профилактики и выявления обманчивых мотивов в продвинутых системах ИИ с целью раскрытия их полезного потенциала.

Инициативы Генеративного ИИ в Индии: Новые Разработки и Перспективы Будущего

Искусственный интеллект Wells Fargo, работающий на базе технологий Google, достигнет 100 миллионов взаимодействий в год.

Most people like

AI poem generator

25.1K

Представляем Ультимативный Генератор Поэзии на ИИ: Ваш Надежный Инструмент для Мгновенного Создания Красивых Стихов! Независимо от того, являетесь ли вы начинающим поэтом или просто хотите творчески выразить свои мысли, наш продвинутый ИИ-генератор поможет вам легко создать потрясающие стихотворения. Исследуйте бесконечные возможности стиха и дайте волю вашему воображению!

Другие AI Blog Writer

Artificial Studio

40.6K

Превратите и улучшите свой мультимедийный контент с помощью нашей бесплатной платформы на основе ИИ. Узнайте, как легко создавать потрясающие визуальные элементы и увлекательный звук совершенно бесплатно!

ИИ Other

Crikk - Text To Speech

447.2K

Откройте для себя силу реалистичных голосовых озвучек, созданных с помощью ИИ, на разных языках. Улучшите свои проекты с помощью живого звука, который привлечет аудиторию и эффективно донесет ваше сообщение. Эти универсальные решения обеспечивают непревзойденную четкость и вовлеченность, будь то для видео, презентаций или интерактивных медиа.

текст в речь AI Speech Synthesis

neuroflash

468.3K

Опробуйте ведущий в Европе генератор ИИ - neuroflash, который предоставляет неограниченный высококачественный контент на семи языках. С встроенной SEO-оптимизацией и проверкой на плагиат, он гарантирует, что ваш контент выделяется и остается уникальным.

Генерация текста с помощью ИИ AI Content Generator

Find AI tools in YBX