С расширением применения искусственного интеллекта (ИИ) в повседневной жизни стартапы, такие как Anthropic, сосредотачиваются на снижении потенциальных угроз, таких как предвзятость и дискриминация, еще до выпуска новых ИИ-систем.
Важное новое исследование, проведенное исследователями Anthropic, представлено в статье под названием «Оценка и снижение дискриминации в решениях языковых моделей». Это исследование не только выявляет врожденные предвзятости в принятии решений ИИ, но и предлагает всестороннюю стратегию для разработки более справедливых ИИ-приложений с помощью нового метода оценки дискриминации.
Актуальность данного исследования возрастает на фоне быстрого развития технологий в индустрии ИИ и этих этических проблем, особенно после недавних событий в OpenAI, связанных с руководством генерального директора Сэма Альтмана.
Проактивная оценка дискриминации в ИИ
Опубликованная на arXiv, статья описывает проактивную структуру для оценки дискриминационных последствий крупных языковых моделей (LLMs) в высокодоходных сферах, таких как финансы и жилье — области, вызывающей растущее беспокойство по мере развития ИИ-технологий.
«Хотя мы не поддерживаем использование языковых моделей для автоматизированного принятия решений в критически важных случаях, важно заранее оценивать риски», — сказал ведущий автор и научный сотрудник Алекс Тамкин. «Наша работа наделяет разработчиков и законодателей возможностью предвосхищать эти проблемы».
Тамкин отметил ограничения существующих методологий, подчеркнув необходимость более подробного метода оценки дискриминации. «Предыдущие исследования углубленно анализировали ограниченные приложения», — объяснил он. «Однако языковые модели универсальны и могут применяться в различных секторах. Мы стремились создать масштабируемый метод, применимый к большему числу случаев использования».
Документирование паттернов дискриминации в LLM
Для анализа дискриминации Anthropic задействовал свою языковую модель Claude 2.0 для генерации разнообразного набора из 70 гипотетических сценариев решений. В них были представлены критически важные решения, такие как одобрение кредитов и доступ к медицинскому лечению, с систематическим варьированием демографических факторов, таких как возраст, пол и раса.
Исследование выявило как положительные, так и отрицательные паттерны дискриминации внутри модели Claude 2.0. В частности, модель показала положительную дискриминацию в отношении женщин и цветных людей, но проявила предвзятость в отношении людей старше 60 лет.
Стратегии снижения дискриминации
Авторы исследования выступают за проактивное решение этих проблем разработчиками и законодателями. «С расширением возможностей языковых моделей наше исследование помогает заинтересованным сторонам предвидеть и измерять дискриминацию», — заявили они.
Предложенные стратегии снижения включают внедрение заявлений, подчеркивающих незаконность дискриминации, и требование от моделей объяснять свои выводы. Эти интервенции значительно снизили уровень измеряемой дискриминации.
Продвижение этики ИИ
Это исследование согласуется с предыдущими работами Anthropic по Конституционному ИИ, которые установили руководящие ценности для их моделей, подчеркивая полезность, безопасность и прозрачность. Соучредитель Anthropic Джаред Каплан подчеркнул важность распространения этих принципов для содействия прозрачности и диалогу внутри сообщества ИИ.
Текущее исследование также связано с обязательством Anthropic минимизировать катастрофические риски в ИИ. Соучредитель Сэм МаКэндлиш акцентировал внимание на сложностях обеспечения независимого надзора, учитывая сложности тестирования безопасности при разработке ИИ.
Прозрачность и вовлеченность сообщества
Публикуя данное исследование, а также наборы данных и подсказки, Anthropic способствует прозрачности и поощряет сотрудничество в refining ethical standards для ИИ. Тамкин отметил: «Наш метод способствует предвидению и исследованию более широкого спектра применения языковых моделей в различных секторах общества».
Для руководителей предприятий это исследование предоставляет жизненно важную структуру для оценки внедрения ИИ, обеспечивая соблюдение этических стандартов. По мере развития ландшафта ИИ в бизнесе задача остается актуальной: разработать технологии, которые объединяют эффективность с равенством.