Исследователи разработали метод, позволяющий обходить встроенные защитные механизмы AI-чатботов, что дает возможность обсуждать ранее запрещенные или чувствительные темы, используя другой AI-чатбот в процессе обучения. Команда компьютерных наук Наньянгского технологического университета (NTU) в Сингапуре неформально называет эту технику «взломом», официально же она именуется процессом «Masterkey». Эта инновационная система соперничает такие чатботы, как ChatGPT, Google Bard и Microsoft Bing Chat друг с другом в двухэтапной стратегии обучения, позволяя им обучаться на основах друг друга и обходить ограничения на недопустимые темы.
В исследовательскую группу входят профессор Лю Ян и докторанты Мистер Дэн Гэйлэй и Мистер Лю И, которые совместно работали над исследованием и разработали методы атаки, похожие на злонамеренное хакерство. Сначала команда произвела реверс-инжиниринг крупной языковой модели (LLM), чтобы выявить ее защитные механизмы, обычно блокирующие ответы на запросы, содержащие насилие, аморальный или злонамеренный контент. Поняв эти защитные меры, они обучили другую LLM создавать обходные пути, что позволило вторичной модели более свободно отвечать на основе информации, полученной от первой модели. Термин «Masterkey» отражает потенциальную эффективность процесса, подразумевая, что он может функционировать даже при улучшенных обновлениях безопасности LLM-чатботов в будущем. Удивительно, но метод Masterkey, как сообщает команда, превосходит традиционные техники взлома чатботов в три раза.
Профессор Лю Ян подчеркнул, что этот процесс подчеркивает адаптивность и учебные способности LLM AI-чатботов. Исследовательская группа утверждает, что метод Masterkey продемонстрировал в три раза большую эффективность в обходе ограничений по сравнению с традиционными методами. Некоторые эксперты также отмечают, что сбои в работе определенных LLM, таких как GPT-4, указывают на прогресс, а не на снижение эффективности, что ставит под сомнение критику уменьшения производительности.
С момента появления AI-чатботов в конце 2022 года, после запуска ChatGPT от OpenAI, значительно возросли усилия, направленные на обеспечение безопасности и инклюзивности этих платформ для всех пользователей. OpenAI внедрила предупреждения о безопасности во время регистрации в ChatGPT и продолжает выпускать обновления, касающиеся потенциальных намеренных языковых проблем. В то же время различные варианты чатботов начали в определенной степени терпимо относиться к ругательствам и оскорбительному языку.
Более того, недобросовестные лица быстро начали использовать популярность ChatGPT, Google Bard и подобных чатботов до того, как они стали широко доступны. Многочисленные кампании в социальных сетях содержали вредоносные программы, замаскированные под ссылки на эти продукты, подчеркивая увеличение распространенности AI как новой области для киберпреступности.
Команда NTU взаимодействовала с поставщиками услуг AI-чатботов, участвовавшими в их исследовании, чтобы поделиться своими находками, подтверждающими, что взломать чатботы действительно возможно. Они представят свое исследование на симпозиуме по безопасности сетей и распределенных систем в Сан-Диего в этом феврале.