Улучшение логики генеративного ИИ: Google DeepMind представляет технологию GenRM

Google DeepMind представляет генеративный оценщик GenRM для улучшения способностей ИИ к рассуждению

27 августа 2023 года команда Google DeepMind опубликовала статью на arXiv, в которой представила свой инновационный генеративный оценщик GenRM. Эта новая модель вознаграждения предназначена для значительного улучшения способностей рассуждения генеративного ИИ.

В настоящее время преобладающим методом улучшения больших языковых моделей (LLMs) является подход "Лучший из N". Эта техника включает генерацию N кандидатных решений, которые затем оцениваются для определения наилучшего варианта. Однако традиционные оценщики LLM обычно функционируют лишь как дискриминационные классификаторы и не используют полноценно возможности текстовой генерации предобученных LLM.

Чтобы преодолеть это ограничение, команда DeepMind обучила оценщик с помощью прогнозирования следующего токена, совмещая валидацию и генерацию решений. GenRM обладает несколькими четко выраженными преимуществами по сравнению с обычными оценщиками:

- Бесшовная интеграция корректировки инструкций

- Поддержка рассуждений в цепочках мыслей

- Расчет дополнительного времени рассуждений с использованием большинства голосов

В задачах, связанных с алгоритмами и основами математического рассуждения, GenRM превзошел как дискриминационные оценщики, так и оценщиков LLM-as-a-Judge, продемонстрировав увеличение уровня успешного решения задач с 16% до 64% при тестировании с оценщиками на базе Gemma.

Google DeepMind утверждает, что GenRM представляет собой важную эволюцию в системах вознаграждения ИИ, особенно усиливая возможности предотвращения потенциального мошенничества в обучении новых моделей. Этот прогресс подчеркивает необходимость улучшения моделей вознаграждения, чтобы гарантировать, что результаты ИИ соответствуют стандартам социальной ответственности.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles