SCoRe от DeepMind демонстрирует, как большие языковые модели (LLM) используют внутренние знания для самокоррекции ошибок.

Home Новости ИИ SCoRe от DeepMind демонстрирует, как большие языковые модели (LLM) используют внутренние знания для самокоррекции ошибок.

Updated on октябрь 1 2024

Хотя большие языковые модели (LLM) становятся все более способными выполнять сложные задачи, они часто не могут предоставить точные ответы с первой попытки. Это привело к повышенному интересу к улучшению их способности выявлять и исправлять ошибки — процесс, известный как "самокоррекция". Однако существующие методы самокоррекции ограничены и часто не удовлетворяют реальным требованиям.

В революционной статье исследователи из Google DeepMind представляют метод самокоррекции через обучение с подкреплением (SCoRe), который значительно усиливает возможности самокоррекции LLM, используя только самооборудованные данные. SCoRe нацелен на улучшение надежности и устойчивости LLM, открывая новые подходы для повышения их логики и навыков решения задач.

"Самокоррекция значительно улучшает человеческое мышление," говорит Авираль Кумар, исследователь из Google DeepMind. "Люди часто размышляют над несколькими идеями и исправляют свои ошибки, в конечном итоге достигая правильного решения. Мы хотим, чтобы LLM делали то же самое."

Идеальная LLM с сильными возможностями самокоррекции должна уметь оценивать и уточнять свои ответы до тех пор, пока не найдет правильный. Это важно, потому что, хотя LLM часто обладают необходимыми знаниями для решения задач, они могут неэффективно их использовать в своих первых ответах.

"С точки зрения основ машинообучения мы не ожидаем, что LLM решат сложные задачи с первой попытки," объясняет Кумар. "Поэтому мы хотим, чтобы LLM тратили больше вычислительных усилий на размышления и самокоррекцию для успешного решения сложных задач."

Предыдущие попытки внедрить самокоррекцию в LLM опирались на проектирование запросов или тонкую настройку моделей, что обычно требует внешней обратной связи или руководства от "оракула". Эти методы часто игнорируют внутренние возможности самокоррекции модели. Методы супервизируемой тонкой настройки (SFT), например, сильно зависят от отзывов человеческих аннотаторов или более сильных моделей, что ограничивает их применение в реальных сценариях. Кроме того, методы SFT иногда требуют наличие нескольких моделей во время вывода для верификации, что усложняет развертывание.

Исследования DeepMind показывают, что, хотя SFT может улучшить исходные данные модели, он оказывается недостаточным, когда модели необходимо исправлять ответы в несколько шагов — что часто требуется для сложных задач. "К концу обучения модель может научиться исправлять ошибки базовой модели, но при этом не иметь способности выявлять собственные ошибки," отмечает Кумар.

Еще одним недостатком SFT является вероятность непреднамеренного поведения, при котором модель учится предоставлять оптимальный ответ с первой попытки, не корректируя его, даже если он неверен. "Модели, обученные с помощью SFT, склонны придерживаться ‘прямой’ стратегии, а не учиться процессу самокоррекции," добавляет он.

Усовершенствования через обучение с подкреплением

Чтобы решить эти ограничения, исследователи DeepMind обратились к обучению с подкреплением (RL). "Текущие LLM неэффективно выполняют самокоррекцию," заявляет Кумар. "Они не обучены отражать прошлые ошибки, вместо этого они стремятся дать лучший ответ на вопросы. Поэтому мы разработали методы самокоррекции."

SCoRe обучает одну модель как генерировать ответы, так и независимо исправлять свои ошибки, без необходимости внешней обратной связи. Это достигается путем обучения исключительно на самооборудованных данных, что устраняет зависимость от внешней информации.

Предыдущие подходы RL к самокоррекции в основном полагались на односторонние взаимодействия, что приводило к "обрушению поведения", когда модель игнорировала команды самокоррекции в пользу предоставления ответа с наилучшим предположением из памяти. "Наивные методы RL приводили к игнорированию побуждения к самокоррекции и сосредоточению только на производстве нулевого ответа," говорит Кумар.

Чтобы противодействовать обрушению поведения, SCoRe использует двухэтапный процесс обучения, усовершенствованный методами регуляризации. Первый этап оптимизирует производительность исправления, обеспечивая, чтобы первоначальные ответы модели оставались согласованными с выводами базовой модели. Второй этап использует многократное RL для улучшения производительности как на первом, так и на последующих этапах, внедряя систему вознаграждений, которая мотивирует модель улучшать свои ответы через несколько итераций.

"Этот двойной подход гарантирует, что модель не просто учится давать лучший первый ответ и минимально его корректировать," объясняют исследователи. "В целом, SCoRe эффективно использует знания базовой модели для положительной самокоррекции."

SCoRe в действии

Исследователи DeepMind оценили SCoRe по сравнению с существующими методами самокоррекции, используя самооборудованные данные, акцентируя внимание на математических и кодировочных задачах с такими контрольными показателями, как MATH, MBPP и HumanEval.

SCoRe продемонстрировал значительные улучшения в возможностях самокоррекции моделей Gemini 1.0 Pro и 1.5 Flash, достигнув абсолютного прироста на 15,6% по стандарту MATH и 9,1% по стандарту HumanEval по сравнению с базовой моделью, превосходя другие техники самокоррекции.

Наиболее заметным улучшением стала способность модели уточнять свои ошибки с первой до второй попытки, минимально изменяя неправильные корректировки правильных ответов. SCoRe также оказалась весьма эффективной в сочетании с стратегиями масштабирования времени вывода, дополнительно усиливая производительность за счет распределения одного и того же бюджета вывода на несколько раундов исправления.

Хотя исследование в основном сосредоточено на кодировочных и логических задачах, команда уверена, что SCoRe может найти более широкие применения. "Представьте себе модели, способные распознавать потенциально небезопасные выводы и самостоятельно улучшать их до того, как они станут видны пользователю," предлагает Кумар.

Эта работа подчеркивает важность обучения LLM способности логически мыслить и самокорректироваться, а не просто сопоставлять входные данные с выводами, прокладывая путь к более способным и надежным системам ИИ.

Pika 1.5 представляет революционные ИИ-специальные эффекты с нарушающими физику возможностями

Archon Inference Framework Увеличивает Скорость и Эффективность LLM без Дополнительных Издержек

Most people like

Humanize AI Text

1.5M

В современном цифровом мире способность создавать тексты, которые вызывают отклик у читателей, имеет решающее значение. Превращение контента, сгенерированного ИИ, в человеческие нарративы не только улучшает понимание, но и способствует искренней связи с аудиторией. Этот гид исследует эффективные стратегии для достижения этой трансформации, гарантируя использование потенциала ИИ при сохранении тепла и доступности, характерных для человеческого письма. Независимо от того, являетесь ли вы контент-креатором, маркетологом или бизнес-профессионалом, овладение этой навыком может повысить вашу эффективную коммуникацию. Давайте подробнее рассмотрим техники, которые делают тексты ИИ подлинными и увлекательными.

ИИ-гуманизатор AI SEO Assistant

AICUT

62.7K

Готовы улучшить процесс создания контента? Наша инновационная ИИ-программа позволяет пользователям легко создавать привлекательные безликие короткие видео. Будь вы маркетологом, преподавателем или увлеченным пользователем социальных сетей, эта удобная платформа упрощает процесс создания видео. Погрузитесь в мир безграничного повествования и укрепите свое присутствие в интернете уже сегодня!

Инструмент для создания видео с помощью ИИ Text to Video

WonsultingAI

583.4K

В условиях современного конкурентного рынка труда найти подходящую позицию может быть непросто. На помощь приходят инструменты поиска работы с использованием ИИ, которые применяют искусственный интеллект для оптимизации и улучшения вашего опыта поиска работы. Анализируя ваши навыки, предпочтения и карьерные цели, эти инновационные платформы соединяют вас с персонализированными возможностями трудоустройства, экономя ваше время и усилия. Откройте для себя будущее рекрутинга и узнайте, как эти умные решения могут преобразить ваш поиск работы в более эффективное и продуктивное путешествие.

Поиск работы с использованием искусственного интеллекта Resume Builder

Freshly.ai

20.6K

Freshly.ai использует силу искусственного интеллекта и человеческого сотрудничества, чтобы полностью раскрыть потенциал ИИ. Обогащая возможности через эту уникальную синергию, мы достигаем выдающихся результатов, превышающих ожидания. Узнайте, как наш инновационный подход преобразует креативность и продуктивность.

ИИ Large Language Models (LLMs)

Find AI tools in YBX