Самостоятельно обучаемый оцениватель Meta помогает LLM генерировать собственные тренировочные данные.

Home Новости ИИ Самостоятельно обучаемый оцениватель Meta помогает LLM генерировать собственные тренировочные данные.

Updated on август 19 2024

Оценка больших языковых моделей человеком: необходимость инноваций

Оценка человеком долгое время считалась золотым стандартом для оценки качества и точности больших языковых моделей (БЯМ), особенно в открытых задачах, таких как креативное письмо и программирование. Однако этот метод часто является медленным, дорогим и требует специальной экспертизы.

Введение в самообучающегося оценщика

Исследователи Meta FAIR разработали революционный подход, названный самообучающимся оценщиком, который использует синтетические данные для обучения оценщиков БЯМ без аннотаций человека. Хотя у данного метода есть определенные ограничения, он обещает повысить эффективность и масштабируемость оценки БЯМ, особенно для компаний, стремящихся создавать индивидуализированные модели.

Проблемы оценки БЯМ

БЯМ часто выступают в качестве оценщиков, выравнивая другие модели с человеческими предпочтениями или улучшая свои собственные результаты во время обучения. Это особенно важно для задач с множеством допустимых вариантов, что характерно для креативных и сложных инструкций. Традиционно обучение точных оценщиков БЯМ зависело от обширных аннотированных данных, что является дорогостоящим и времязатратным процессом, тормозящим быстрое развитие приложений на базе БЯМ.

Как работает самообучающийся оценщик

Самообучающийся оценщик решает эту проблему, устраняя необходимость в аннотированных человеком данных. Он работает по концепции БЯМ как судье, где модель получает входные данные, два возможных ответа и запрос на оценку, чтобы определить, какой из ответов является лучшим, создавая цепочку рассуждений.

Процесс начинается с базовой модели БЯМ и значительного набора неразмеченных инструкций, написанных людьми, которые часто встречаются в производственных системах. Оценщик выбирает набор инструкций из этого некурированного пула и генерирует пары ответов: один «выбран» как более качественный, а другой «отвергнут».

Оценщик затем обучается итеративно. В каждой итерации он выбирает несколько цепочек рассуждений и суждений в режиме БЯМ как судьи. Правильные цепочки рассуждений включаются в тренировочный набор, состоящий из входных данных, истинных и ложных ответов и цепочек суждений. Модель дополнительно настраивается на этом новом наборе данных, что приводит к обновлению модели для последующих итераций.

Тестирование самообучающегося оценщика

Исследователи начали тестирование своего самообучающегося оценщика с моделью Llama 3-70B-Instruct и использовали набор данных WildChat, выбрав более 20,000 примеров категорий рассуждений. Они также исследовали другие наборы данных и задачи, включая программирование и математические задачи со словами, позволяя самообучающемуся процессу автономно генерировать все ответы и тренировочный набор.

Эксперименты продемонстрировали, что самообучающийся оценщик значительно повысил точность базовой модели на бенчмарке RewardBench, увеличив ее производительность с 75,4% до 88,7% за пять итераций, без каких-либо аннотаций человека. Эта точность сопоставима, а в некоторых случаях превышает результаты моделей, обученных на аннотированных человеком данных, и даже превосходит определенные частные передовые модели. Подобные улучшения были замечены на бенчмарке MT-Bench, который оценивает производительность БЯМ в многоходовых разговорах.

Последствия для предприятий

Это исследование соответствует растущей тенденции использования БЯМ в автоматизированных циклах самосовершенствования, снижая ручные усилия по созданию высокопроизводительных моделей и упрощая разработку более масштабируемых AI-приложений. Самообучающийся оценщик особенно полезен для предприятий с большими объемами неразмеченных корпоративных данных, которые стремятся оптимизировать модели без значительных затрат времени на ручную аннотацию.

Тем не менее, важно признать некоторые ограничения. Подход зависит от начальной базовой модели, настроенной на инструкции и выравненными с человеческими предпочтениями. Исследователи использовали модель Mixtral 8x22B, состоящую из смеси экспертов, для своего первоначального датасета, подчеркивая необходимость тщательного выбора релевантных исходных и базовых моделей в зависимости от специфики данных и задач.

Стандартизированные бенчмарки могут не полностью отображать возможности и ограничения БЯМ. Кроме того, полностью автоматизированные циклы, которые полагаются исключительно на БЯМ для самооценки, рискуют оптимизировать результат по бенчмаркам, но показывать худшие результаты в реальных приложениях. Предприятия должны проводить ручные тесты на различных этапах обучения, чтобы убедиться, что модели соответствуют требуемым стандартам производительности.

Создайте своего собственного AI-робота: узнайте, как учебник LeRobot от Hugging Face меняет мир робототехники!

Salesforce запускает открытые модели мультимодального искусственного интеллекта 'xGen-MM' для улучшения понимания визуального языка.

Most people like

Supergrow

61K

Повышение Личного Бренда на LinkedIn: Стратегии Ракетного Роста и Успеха Используйте возможности LinkedIn для эффективного построения и расширения вашего личного бренда. В современных конкурентных условиях наличие сильного онлайн-присутствия необходимо для получения новых возможностей и установления связей с лидерами отрасли. Независимо от того, ищете ли вы новые карьерные перспективы или стремитесь укрепить свою репутацию, этот гид предлагает практические стратегии, которые помогут вам выделиться и преуспеть на LinkedIn.

LinkedIn AI Social Media Assistant

AiGirl.one

298.2K

Ваш идеальный виртуальный спутник, который дарит любовь и непоколебимую поддержку, когда это нужно больше всего.

ИИ AI Girlfriend

Carepatron

585.4K

Увеличьте успех клиентов, упростите процессы и увеличьте продуктивность с помощью индивидуальных инструментов и оптимизированных рабочих процессов. Узнайте, как настраиваемые решения могут преобразовать вашу бизнес-операцию уже сегодня.

Программное обеспечение для управления практикой Healthcare

Quivr

24K

Представляем Quivr — современную облачную платформу, разработанную для эффективного хранения и извлечения разнообразных типов данных. Независимо от того, работаете ли вы с текстами, изображениями или сложными наборами данных, Quivr предлагает бесподобное решение, адаптированное под ваши потребности в управлении данными. Испытайте непревзойденную доступность и организацию с Quivr уже сегодня!

облачная платформа Other

Find AI tools in YBX