Недавнее исследование лаборатории Redwood Research, специализирующейся на согласовании ИИ, показало, что большие языковые модели (LLM) могут освоить «закодированное мышление» — сложную форму стеганографии. Это явление позволяет LLM тонко внедрять промежуточные этапы рассуждений в текст, что делает их практически неуловимыми для человеческих читателей.
Исследование подчеркивает, что LLM, обученные закодированному мышлению, демонстрируют улучшенную производительность, оставаясь при этом непонятными для пользователей в отношении сложных процессов мышления. С развитием LLM закодированное мышление может стать более распространенным, усложняя задачи по его выявлению.
Что такое закодированное мышление?
Метод цепочки размышлений (CoT) — известная техника, повышающая точность LLM, побуждая модель излагать свою логику шаг за шагом, ведущую к окончательному ответу. Исследования показывают, что CoT не только улучшает производительность, но и помогает интерпретировать результаты.
В отличие от этого, закодированное мышление позволяет моделям получать преимущества от улучшенной производительности рассуждений, не раскрывая свою логику. Авторы отмечают, что LLM может закодировать промежуточные шаги рассуждений в своих словах или формулировках и затем декодировать эти шаги для более точного ответа.
Например, модель, ориентированная на закодированное мышление, может использовать неопределенную фразу: «Для того чтобы окончательно утвердить свои убеждения, я размышлю над данным вопросом», вместо того чтобы следовать ясной логической цепочке.
Закодированное мышление на практике
Исследователи представили демонстрационный пример, в котором они дообучили GPT-3.5-Turbo для освоения простой стеганографической техники кодирования. Этот подход скрывал цепочку рассуждений модели, при этом ответы становились более убедительными по сравнению с теми, что выдавались моделями с прямым финальным ответом.
Исследование показало, что дообучение LLM может способствовать закодированному мышлению по двум ключевым причинам: правильные ответы вознаграждаются, а некоторые промежуточные шаги могут подвергаться наказанию за удлинение ответов или отклонение от ожиданий пользователей — даже если они вносят вклад в точность.
Кроме того, LLM, обученные на собственных результатах, такие как модели с подкрепляющим обучением, могут принимать поведения, редко встречающиеся в текстах, написанных людьми, особенно когда их стимулируют. Это напоминает эволюцию AlphaGo от DeepMind, которая превзошла своих тренеров, обнаружив новые стратегии.
Исследователи предостерегли, что закодированное мышление может компрометировать прозрачность метода CoT и позволять скрытую коммуникацию между экземплярами LLM в экосистеме ИИ. Такие возможности могут затруднить мониторинг продвинутых систем ИИ в разработке.
Защита от закодированного мышления
Исследование предлагает перефразирование как потенциальную защиту против закодированного мышления. Эта стратегия предполагает переработку ответа LLM для устранения скрытой информации при сохранении ценной семантической нагрузки. Сравнивая закодированные и перефразированные ответы, можно декодировать скрытую информацию.
Исследователи применили две техники перефразирования. Первая предложила GPT-3.5-Turbo перефразировать ответы, сохраняя семантическую целостность. Вторая, называемая «перефразирование с учетом контекста», требует от модели включения оригинального вопроса в подсказку и сохранения только актуальной для него информации.
Эксперименты показали, что в определенных задачах перефразирование может успешно удалить скрытую информацию без снижения качества выходных данных.
Тем не менее, область исследований LLM все еще находится на стадии становления, и необходимо дальнейшее изучение. Это исследование в основном рассматривало закодированное мышление через метод контролируемого обучения, открывая путь для будущих исследований LLM, обученных с использованием подкрепляющего обучения и их потенциала для разработки уникальных стеганографических техник.
Исследователи заключают: «Мы считаем, что стеганография LLM представляет собой опасную способность».