Улучшение логики генеративного ИИ: Google DeepMind представляет технологию GenRM

Google DeepMind представляет генеративный оценщик GenRM для улучшения способностей ИИ к рассуждению

27 августа 2023 года команда Google DeepMind опубликовала статью на arXiv, в которой представила свой инновационный генеративный оценщик GenRM. Эта новая модель вознаграждения предназначена для значительного улучшения способностей рассуждения генеративного ИИ.

В настоящее время преобладающим методом улучшения больших языковых моделей (LLMs) является подход "Лучший из N". Эта техника включает генерацию N кандидатных решений, которые затем оцениваются для определения наилучшего варианта. Однако традиционные оценщики LLM обычно функционируют лишь как дискриминационные классификаторы и не используют полноценно возможности текстовой генерации предобученных LLM.

Чтобы преодолеть это ограничение, команда DeepMind обучила оценщик с помощью прогнозирования следующего токена, совмещая валидацию и генерацию решений. GenRM обладает несколькими четко выраженными преимуществами по сравнению с обычными оценщиками:

- Бесшовная интеграция корректировки инструкций

- Поддержка рассуждений в цепочках мыслей

- Расчет дополнительного времени рассуждений с использованием большинства голосов

В задачах, связанных с алгоритмами и основами математического рассуждения, GenRM превзошел как дискриминационные оценщики, так и оценщиков LLM-as-a-Judge, продемонстрировав увеличение уровня успешного решения задач с 16% до 64% при тестировании с оценщиками на базе Gemma.

Google DeepMind утверждает, что GenRM представляет собой важную эволюцию в системах вознаграждения ИИ, особенно усиливая возможности предотвращения потенциального мошенничества в обучении новых моделей. Этот прогресс подчеркивает необходимость улучшения моделей вознаграждения, чтобы гарантировать, что результаты ИИ соответствуют стандартам социальной ответственности.

Most people like

Find AI tools in YBX