Оценка больших языковых моделей человеком: необходимость инноваций
Оценка человеком долгое время считалась золотым стандартом для оценки качества и точности больших языковых моделей (БЯМ), особенно в открытых задачах, таких как креативное письмо и программирование. Однако этот метод часто является медленным, дорогим и требует специальной экспертизы.
Введение в самообучающегося оценщика
Исследователи Meta FAIR разработали революционный подход, названный самообучающимся оценщиком, который использует синтетические данные для обучения оценщиков БЯМ без аннотаций человека. Хотя у данного метода есть определенные ограничения, он обещает повысить эффективность и масштабируемость оценки БЯМ, особенно для компаний, стремящихся создавать индивидуализированные модели.
Проблемы оценки БЯМ
БЯМ часто выступают в качестве оценщиков, выравнивая другие модели с человеческими предпочтениями или улучшая свои собственные результаты во время обучения. Это особенно важно для задач с множеством допустимых вариантов, что характерно для креативных и сложных инструкций. Традиционно обучение точных оценщиков БЯМ зависело от обширных аннотированных данных, что является дорогостоящим и времязатратным процессом, тормозящим быстрое развитие приложений на базе БЯМ.
Как работает самообучающийся оценщик
Самообучающийся оценщик решает эту проблему, устраняя необходимость в аннотированных человеком данных. Он работает по концепции БЯМ как судье, где модель получает входные данные, два возможных ответа и запрос на оценку, чтобы определить, какой из ответов является лучшим, создавая цепочку рассуждений.
Процесс начинается с базовой модели БЯМ и значительного набора неразмеченных инструкций, написанных людьми, которые часто встречаются в производственных системах. Оценщик выбирает набор инструкций из этого некурированного пула и генерирует пары ответов: один «выбран» как более качественный, а другой «отвергнут».
Оценщик затем обучается итеративно. В каждой итерации он выбирает несколько цепочек рассуждений и суждений в режиме БЯМ как судьи. Правильные цепочки рассуждений включаются в тренировочный набор, состоящий из входных данных, истинных и ложных ответов и цепочек суждений. Модель дополнительно настраивается на этом новом наборе данных, что приводит к обновлению модели для последующих итераций.
Тестирование самообучающегося оценщика
Исследователи начали тестирование своего самообучающегося оценщика с моделью Llama 3-70B-Instruct и использовали набор данных WildChat, выбрав более 20,000 примеров категорий рассуждений. Они также исследовали другие наборы данных и задачи, включая программирование и математические задачи со словами, позволяя самообучающемуся процессу автономно генерировать все ответы и тренировочный набор.
Эксперименты продемонстрировали, что самообучающийся оценщик значительно повысил точность базовой модели на бенчмарке RewardBench, увеличив ее производительность с 75,4% до 88,7% за пять итераций, без каких-либо аннотаций человека. Эта точность сопоставима, а в некоторых случаях превышает результаты моделей, обученных на аннотированных человеком данных, и даже превосходит определенные частные передовые модели. Подобные улучшения были замечены на бенчмарке MT-Bench, который оценивает производительность БЯМ в многоходовых разговорах.
Последствия для предприятий
Это исследование соответствует растущей тенденции использования БЯМ в автоматизированных циклах самосовершенствования, снижая ручные усилия по созданию высокопроизводительных моделей и упрощая разработку более масштабируемых AI-приложений. Самообучающийся оценщик особенно полезен для предприятий с большими объемами неразмеченных корпоративных данных, которые стремятся оптимизировать модели без значительных затрат времени на ручную аннотацию.
Тем не менее, важно признать некоторые ограничения. Подход зависит от начальной базовой модели, настроенной на инструкции и выравненными с человеческими предпочтениями. Исследователи использовали модель Mixtral 8x22B, состоящую из смеси экспертов, для своего первоначального датасета, подчеркивая необходимость тщательного выбора релевантных исходных и базовых моделей в зависимости от специфики данных и задач.
Стандартизированные бенчмарки могут не полностью отображать возможности и ограничения БЯМ. Кроме того, полностью автоматизированные циклы, которые полагаются исключительно на БЯМ для самооценки, рискуют оптимизировать результат по бенчмаркам, но показывать худшие результаты в реальных приложениях. Предприятия должны проводить ручные тесты на различных этапах обучения, чтобы убедиться, что модели соответствуют требуемым стандартам производительности.