Одним из самых интересных и практичных сленговых терминов, появившихся на Reddit, является "ELI5", что означает "Объясни, как будто мне пять лет". Этот термин побуждает экспертов упрощать сложные идеи так, словно объясняют их пятилетнему ребенку, что делает их более доступными для всех, в том числе и для людей без формального образования.
Этот подход также полезен для моделей ИИ, особенно в решении проблемы "читаемости", касающейся понимания того, как системы ИИ приходят к своим выводам. Сегодня исследователи OpenAI представляют значительное достижение в этой области с новой научной статьей под названием “Prover-Verifier Games Improve Legibility of LLM Outputs”, которая доступна на сайте компании и arXiv.org. В своей работе они исследуют новый алгоритм, который позволяет крупным языковым моделям (LLM), таким как GPT-4, более четко формулировать свои рассуждения.
Установление доверия к системам ИИ является критически важным, особенно в таких чувствительных областях, как здравоохранение, право, военное дело и критическая инфраструктура, где неточности могут привести к опасным последствиям. Даже компании за пределами этих секторов могут колебаться с внедрением ИИ из-за опасений относительно неверных выводов. Работа OpenAI направлена на создание структуры, позволяющей ИИ моделям ясно объяснять свои процессы принятия решений, что, в свою очередь, повышает доверие пользователей.
Исследователь OpenAI Ян Хендрик Кирхнер отметил: “Это свежие исследования, которые мы только что завершили, и мы готовы поделиться этими знаниями с сообществом, чтобы повысить осведомленность о проблеме читаемости и стимулировать сотрудничество для ее решения.”
Понимание игры Пробирщик-Проверяющий
Алгоритм, разработанный OpenAI, основывается на концепции "игры Пробирщик-Проверяющий", впервые представленной исследователями Университета Торонто и Института векторной науки в 2021 году. В этой игре участвуют две модели ИИ: более продвинутый "пробирщик" и менее сложный "проверяющий". Пробирщик стремится убедить проверяющего в своем ответе, независимо от его правильности, в то время как проверяющий пытается найти верный ответ.
Цель состоит в том, чтобы побуждать модели ИИ "демонстрировать свою работу" и объяснять свои рассуждения пользователям, что, по сути, содействует подходам к решению задач, которые можно проверить. “Поскольку крупные языковые модели все чаще используются в сложных и критических сферах, важно обеспечить доверие к их выводам. Метод игры Пробирщик-Проверяющий усиливает ясность и проверяемость, ключевые компоненты доверия,” — прокомментировал исследователь OpenAI Йинин Чен.
Реализация игры Пробирщик-Проверяющий
OpenAI использовала две специально настроенные модели GPT-4 для проведения серии раундов, в которых решались математические задачи начальной школы. Ключевым аспектом их методологии было чередование поведения модели пробирщика между "помогающим" (что означает стремление дать правильный ответ) и "обманчивым" (стремление ввести проверяющего в заблуждение). Модель проверяющего, не осознавая намерений пробирщика, оценивала ответы только на основе своего обучения.
После каждого раунда обе модели повторно обучались на основе своих предыдущих результатов, что улучшало их способность оценивать правильность и формулировать объяснения доступным языком. Для оценки читаемости ответов модели пробирщика привлекались человеческие подрядчики.
После нескольких раундов исследователи заметили, что модель проверяющего улучшила свою стойкость к методам убеждения обманчивого пробирщика, в то время как модель пробирщика стала более эффективной в объяснении своих рассуждений. В статье отмечается: “Обманчивые решения, которые сложнее обнаружить меньшим проверяющим, также представляют трудности для людей, в то время как полезные решения, которые более читабельны для меньших проверяющих, также легче воспринимаются людьми.”
Алгоритм, полученный в результате этих экспериментов, оптимизирует LLM как для правильности, так и для ясности, что, по мнению OpenAI, будет способствовать разработке ИИ-систем, производящих не только корректные, но и прозрачные результаты, увеличивая безопасность и доверие в реальных приложениях.
Как подчеркнул Чен, этот метод имеет потенциал привести более продвинутые системы ИИ в соответствие с оценщиком-людьми, что является важным шагом по мере того, как модели достигают или превосходят уровень человеческого интеллекта. Кирхнер добавил: “На этом этапе людям может стать все труднее надежно оценивать точность контента, созданного ИИ.”