Nvidia Llama-3.1-Minitron 4B: Мощная компактная языковая модель, превосходящая ожидания

Home Новости ИИ Nvidia Llama-3.1-Minitron 4B: Мощная компактная языковая модель, превосходящая ожидания

Updated on август 20 2024

В условиях активной гонки между технологическими компаниями по внедрению искусственного интеллекта на устройства, исследование малых языковых моделей (SLM), оптимизированных для устройств с ограниченными ресурсами, стремительно развивается. Недавний прорыв от Nvidia представил Llama-3.1-Minitron 4B — сжатую версию модели Llama 3, использующую современные методы обрезки и дистилляции. Эта новая модель не только конкурирует с более крупными аналогами, но и обеспечивает более эффективный процесс обучения и внедрения.

Понимание обрезки и дистилляции

Обрезка и дистилляция — ключевые техники для разработки более компактных и эффективных языковых моделей. Обрезка устраняет менее критичные компоненты: "обрезка по глубине" исключает целые слои, а "обрезка по ширине" удаляет определенные элементы, такие как нейроны и головы внимания.

Дистилляция модели включает передачу знаний от более крупной "учительской модели" к более простой "студенческой модели". Существуют два основных подхода:

1. Обучение SGD: Студенческая модель учится на входных данных и ответах учителя.

2. Классическая дистилляция знаний: В этом методе студент учится не только на конечных выходах, но и на промежуточных активациях учительской модели.

Ранее Nvidia объединила обрезку с классической дистилляцией, уменьшив модель Nemotron 15B до модели с 8 миллиардами параметров. Последующая дистилляция от оригинальной модели к обрезанной версии привела к созданию модели на 4 миллиарда параметров, что позволило достичь улучшения производительности на 16% по стандарту MMLU, используя при этом в 40 раз меньше токенов для обучения.

Разработка Llama 3.1-Minitron

Опираясь на предыдущие методы, Nvidia применила те же подходы к 8B модели Llama 3.1, создав 4-миллиардную версию, способную конкурировать с крупными моделями. Процесс начался с тонкой настройки необрезанной 8B модели на обширном наборе данных объемом 94 миллиарда токенов для устранения сдвигов в распределении, которые затрудняли обучение во время дистилляции.

Затем были применены две формы обрезки: обрезка по глубине, сократившая количество слоев модели на 50%, и обрезка по ширине, удалившая 50% нейронов в некоторых плотных слоях. Эти изменения привели к созданию двух разных версий модели Llama-3.1-Minitron 4B.

Обрезанные модели прошли тонкую настройку с использованием NeMo-Aligner, пакета инструментов с рядом алгоритмов выравнивания, включая обучение с подкреплением на основе человеческой обратной связи (RLHF) и SteerLM от Nvidia.

Результаты производительности

Nvidia оценивала модели Llama-3.1-Minitron 4B по задачам следования инструкциям, ролевым играм, генерированию с дополнением извлечений и вызовам функций. Несмотря на меньший набор данных для обучения, Llama-3.1-Minitron 4B показала производительность, сопоставимую с другими SLM, такими как Phi-2 2.7B и Gemma2 2.6B, при этом оставаясь значительно меньшей. Это подчеркивает интересный компромисс между затратами на обучение и эффективностью вывода.

Версия модели с обрезкой по ширине теперь доступна на Hugging Face по лицензии Nvidia Open Model, что способствует более широкому доступу и коммерческому использованию для разработчиков.

Nvidia утверждает, что "обрезка и классическая дистилляция знаний — это экономически эффективный способ создания меньших, высокоточных языковых моделей по сравнению с традиционными методами". Эта работа подчеркивает важную роль сообщества с открытым исходным кодом в развитии ИИ и демонстрирует, как стратегии обрезки и дистилляции могут оптимизировать LLM, минимизируя затраты. Другие инновационные усилия, такие как алгоритм слияния моделей Sakana AI, также подчеркивают потенциал недорогих решений для обучения в области ИИ.

Как Индия использует ускоренные вычисления от Nvidia для оптимизации управления трафиком на платных дорогах

Разблокируйте донастройку для GPT-4o: получайте 1 миллион бесплатных токенов ежедневно до 23 сентября!

Most people like

FunFun Art

Откройте для себя захватывающий мир создания изображений и видео с помощью ИИ!

DeepNude Text to Image

E1U Life

9.7K

Откройте для себя универсальную маркетинговую платформу, разработанную для автоматизации задач, упрощения рабочих процессов и повышения взаимодействия с клиентами без усилий. Идеально подходит для компаний, стремящихся к эффективности, это комплексное решение упрощает ваши маркетинговые усилия, одновременно увеличивая вашimpact.

автоматизация маркетинга AI Analytics Assistant

Beam AI

52.5K

Откройте для себя силу агентной автоматизации и ИИ-агентов, революционизирующих процессы для повышения эффективности. Узнайте, как эти передовые технологии оптимизируют рабочие процессы, увеличивают продуктивность и преображают повседневные задачи.

Агентный процесс автоматизации Writing Assistants

Neurons AI

71.1K

Усовершенствуйте свою рекламную стратегию с помощью нейронаучных инструментов для достижения максимальной эффективности.

Нейробиология AI Advertising Assistant

Find AI tools in YBX