Антагонистичный ИИ: Переосмысление языковых моделей для реального взаимодействия
Когда вы взаимодействуете с современными большими языковыми моделями (БЯМ), ожидаете ли вы конфронтационных, пренебрежительных или даже оскорбительных ответов? Скорее всего, нет. Тем не менее, исследователи Гарварда выступают за создание "Антагонистичного ИИ", который намеренно включает критические и бросающие вызов поведения в эти системы.
Противостояние статус-кво
Элис Цай, соучредительница Лаборатории дополнений Гарварда, выражает недовольство чрезмерно отфильтрованным тоном современных ИИ: "В человеческих ценностях, встроенных в ИИ, есть что-то глубоко неискреннее." Она считает, что антагонистическое взаимодействие может укрепить устойчивость и облегчить эмоциональное напряжение через конструктивные вызовы.
Проблема современных БЯМ
Современные БЯМ слишком согласны, что часто препятствует их значимому взаимодействию. Это вызывает у пользователей недовольство, так как модели расценивают безобидные запросы как неэтичные, соглашаются с дезинформацией и испытывают трудности в обсуждении чувствительных тем, таких как религия, политика и психическое здоровье. Цай и соисследователь Иан Аравхо подчеркивают, что это ограничение является результатом культурных предвзятостей и нежелания столкнуться с дискомфортом. Цай акцентирует внимание на важности антагонизма, спрашивая: "Почему мы боимся его вместо того, чтобы рассматривать как инструмент для роста?" Концепция "антихрупкости" писателя Насима Николаса Талеба поддерживает эту идею, утверждая, что преодоление трудностей необходимо для человеческого развития.
Преимущества антагонистичного ИИ
Цай и Аравхо выделяют несколько потенциальных преимуществ антагонистичного ИИ, включая:
- Формирование устойчивости
- Обеспечение катарсиса и развлечения
- Содействие личностному и коллективному росту
- Упрощение саморефлексии
- Укрепление и разнообразие идей
- Сплочение общества
Разработка антагонистичного ИИ
Исследователи взаимодействовали с платформами, такими как subreddit LocalLlama, где пользователи создают "некорректные" открытые модели. Их исследование классифицировало три типа антагонизма:
1. Противостоящий: ИИ выступает в роли противника.
2. Аргументативный: ИИ оспаривает убеждения пользователя.
3. Личный: ИИ критикует характер или поведение пользователя.
Они предлагают различные стратегии для внедрения этих антагонистических функций, такие как:
- Несогласие: Поощрение дебатов для улучшения навыков пользователя.
- Критика: Предоставление честной критики для содействия саморефлексии.
- Прерывания: Оспаривание ожиданий пользователей во время взаимодействий.
- Игра в власть: Игнорирование или наблюдение за поведением пользователя.
- Табуированные темы: Участие в обсуждениях, которые обычно избегаются.
- Угроза: Провокация страха для получения реакции.
- Манипуляция: Использование тактики для оспаривания восприятия пользователя.
- Насмешка: Легкое подшучивание для повышения устойчивости.
Аравхо отметил, что креативность антагонистичного ИИ часто резко контрастирует с типичными льстительными ответами существующих моделей, что делает их свежими и увлекательными.
Ответственный антагонизм
Важно отметить, что стремление к антагонизму не означает отказ от этических практик ИИ. Аравхо настаивает на необходимости справедливости и устранения предвзятостей, не жертвуя необходимой надежностью, которая возникает из сложных взаимодействий. Он подчеркивает, что ИИ не должен ограничиваться "доброжелательностью" и "вежливостью", а должен критически взаимодействовать с пользователями, если это делается ответственно.
Исследователи призывают к созданию структуры, включающей согласие пользователей и четкое информирование об использовании этих систем. Контекстуальная осведомленность — учет эмоционального и социального фона пользователя — имеет решающее значение для эффективной реализации антагонистических функций.
Размышления о культуре и ценностях
Цай, делясь наблюдениями из своего азиатско-американского происхождения, утверждает, что современная парадигма ИИ зачастую накладывает западные культурные нормы. Это поднимает вопрос: чьи ценности отражает ИИ? Аравхо утверждает, что принятие более широкого диапазона ценностей — помимо простой вежливости — приведет к более богатым и значимым взаимодействиям с ИИ.
Будущее антагонистичного ИИ
Нарастающая область антагонистичного ИИ сталкивается с вызовами в получении академической поддержки, в основном из-за культурной предрасположенности к комфорту в технологиях. Тем не менее, оба исследователя обнаруживают растущую открытость к изучению этих идей.
Цай отмечает: "Многие испытывают облегчение от того, что кто-то указал на ограничения современных моделей ИИ." Аравхо соглашается, подчеркивая, что даже те, кто глубоко вовлечен в безопасность ИИ, готовы исследовать преимущества антагонистических взаимодействий, что свидетельствует о готовности к важному дискурсу.
По мере эволюции диалога вокруг ИИ интеграция антагонистичного ИИ может открыть путь к достижениям, отражающим весь спектр человеческого опыта, содействуя обдуманному взаимодействию и устойчивости в всё более сложном мире.