Хотя большие языковые модели (LLM) становятся все более способными выполнять сложные задачи, они часто не могут предоставить точные ответы с первой попытки. Это привело к повышенному интересу к улучшению их способности выявлять и исправлять ошибки — процесс, известный как "самокоррекция". Однако существующие методы самокоррекции ограничены и часто не удовлетворяют реальным требованиям.
В революционной статье исследователи из Google DeepMind представляют метод самокоррекции через обучение с подкреплением (SCoRe), который значительно усиливает возможности самокоррекции LLM, используя только самооборудованные данные. SCoRe нацелен на улучшение надежности и устойчивости LLM, открывая новые подходы для повышения их логики и навыков решения задач.
"Самокоррекция значительно улучшает человеческое мышление," говорит Авираль Кумар, исследователь из Google DeepMind. "Люди часто размышляют над несколькими идеями и исправляют свои ошибки, в конечном итоге достигая правильного решения. Мы хотим, чтобы LLM делали то же самое."
Идеальная LLM с сильными возможностями самокоррекции должна уметь оценивать и уточнять свои ответы до тех пор, пока не найдет правильный. Это важно, потому что, хотя LLM часто обладают необходимыми знаниями для решения задач, они могут неэффективно их использовать в своих первых ответах.
"С точки зрения основ машинообучения мы не ожидаем, что LLM решат сложные задачи с первой попытки," объясняет Кумар. "Поэтому мы хотим, чтобы LLM тратили больше вычислительных усилий на размышления и самокоррекцию для успешного решения сложных задач."
Предыдущие попытки внедрить самокоррекцию в LLM опирались на проектирование запросов или тонкую настройку моделей, что обычно требует внешней обратной связи или руководства от "оракула". Эти методы часто игнорируют внутренние возможности самокоррекции модели. Методы супервизируемой тонкой настройки (SFT), например, сильно зависят от отзывов человеческих аннотаторов или более сильных моделей, что ограничивает их применение в реальных сценариях. Кроме того, методы SFT иногда требуют наличие нескольких моделей во время вывода для верификации, что усложняет развертывание.
Исследования DeepMind показывают, что, хотя SFT может улучшить исходные данные модели, он оказывается недостаточным, когда модели необходимо исправлять ответы в несколько шагов — что часто требуется для сложных задач. "К концу обучения модель может научиться исправлять ошибки базовой модели, но при этом не иметь способности выявлять собственные ошибки," отмечает Кумар.
Еще одним недостатком SFT является вероятность непреднамеренного поведения, при котором модель учится предоставлять оптимальный ответ с первой попытки, не корректируя его, даже если он неверен. "Модели, обученные с помощью SFT, склонны придерживаться ‘прямой’ стратегии, а не учиться процессу самокоррекции," добавляет он.
Усовершенствования через обучение с подкреплением
Чтобы решить эти ограничения, исследователи DeepMind обратились к обучению с подкреплением (RL). "Текущие LLM неэффективно выполняют самокоррекцию," заявляет Кумар. "Они не обучены отражать прошлые ошибки, вместо этого они стремятся дать лучший ответ на вопросы. Поэтому мы разработали методы самокоррекции."
SCoRe обучает одну модель как генерировать ответы, так и независимо исправлять свои ошибки, без необходимости внешней обратной связи. Это достигается путем обучения исключительно на самооборудованных данных, что устраняет зависимость от внешней информации.
Предыдущие подходы RL к самокоррекции в основном полагались на односторонние взаимодействия, что приводило к "обрушению поведения", когда модель игнорировала команды самокоррекции в пользу предоставления ответа с наилучшим предположением из памяти. "Наивные методы RL приводили к игнорированию побуждения к самокоррекции и сосредоточению только на производстве нулевого ответа," говорит Кумар.
Чтобы противодействовать обрушению поведения, SCoRe использует двухэтапный процесс обучения, усовершенствованный методами регуляризации. Первый этап оптимизирует производительность исправления, обеспечивая, чтобы первоначальные ответы модели оставались согласованными с выводами базовой модели. Второй этап использует многократное RL для улучшения производительности как на первом, так и на последующих этапах, внедряя систему вознаграждений, которая мотивирует модель улучшать свои ответы через несколько итераций.
"Этот двойной подход гарантирует, что модель не просто учится давать лучший первый ответ и минимально его корректировать," объясняют исследователи. "В целом, SCoRe эффективно использует знания базовой модели для положительной самокоррекции."
SCoRe в действии
Исследователи DeepMind оценили SCoRe по сравнению с существующими методами самокоррекции, используя самооборудованные данные, акцентируя внимание на математических и кодировочных задачах с такими контрольными показателями, как MATH, MBPP и HumanEval.
SCoRe продемонстрировал значительные улучшения в возможностях самокоррекции моделей Gemini 1.0 Pro и 1.5 Flash, достигнув абсолютного прироста на 15,6% по стандарту MATH и 9,1% по стандарту HumanEval по сравнению с базовой моделью, превосходя другие техники самокоррекции.
Наиболее заметным улучшением стала способность модели уточнять свои ошибки с первой до второй попытки, минимально изменяя неправильные корректировки правильных ответов. SCoRe также оказалась весьма эффективной в сочетании с стратегиями масштабирования времени вывода, дополнительно усиливая производительность за счет распределения одного и того же бюджета вывода на несколько раундов исправления.
Хотя исследование в основном сосредоточено на кодировочных и логических задачах, команда уверена, что SCoRe может найти более широкие применения. "Представьте себе модели, способные распознавать потенциально небезопасные выводы и самостоятельно улучшать их до того, как они станут видны пользователю," предлагает Кумар.
Эта работа подчеркивает важность обучения LLM способности логически мыслить и самокорректироваться, а не просто сопоставлять входные данные с выводами, прокладывая путь к более способным и надежным системам ИИ.