Stability AI представляет компактную и эффективную языковую модель на 1,6 миллиарда параметров: новая эра инноваций

Влияние размера на большие языковые модели (LLM)

Размер играет ключевую роль в функциональности больших языковых моделей (LLM), определяя их эффективность. Stability AI, известная своей технологией генеративного ИИ Stable Diffusion, только что представила одну из самых компактных моделей — Stable LM 2 1.6B. Эта модель генерации текстового контента впервые была представлена в апреле 2023 года с версиями на 3 миллиарда и 7 миллиардов параметров. Модель 1.6B — второй релиз компании в 2024 году после выхода Stability AI’s Stable Code 3B.

Представление компактной модели Stable LM 2

Новая модель Stable LM 2 1.6B разработана для снижения барьеров для разработчиков и ускорения их участия в экосистеме генеративного ИИ. Эта компактная, но мощная модель поддерживает генерацию текстов на семи языках: английском, испанском, немецком, итальянском, французском, португальском и нидерландском. Модель использует последние достижения в алгоритмическом языковом моделировании для достижения оптимального баланса между скоростью и производительностью.

Карлос Рикельме, руководитель языковой группы Stability AI, отметил: «В общем, большие модели, обученные на схожих данных, показывают лучшие результаты, чем мелкие. Однако с внедрением улучшенных алгоритмов и качественных данных мы часто наблюдаем, что меньшие модели превосходят своих старших, более объемных аналогов».

Почему меньшие модели могут превосходить большие

Согласно Stability AI, модель Stable LM 2 1.6B превосходит многие небольшие языковые модели с параметрами менее 2 миллиардов по различным тестовым показателям, включая Phi-2 от Microsoft (2.7B), TinyLlama 1.1B и Falcon 1B. Удивительно, но она также surpasses более крупные версии, такие как предыдущая модель Stability AI Stable LM 3B.

«Stable LM 2 1.6B показывает лучшие результаты, чем некоторые более крупные модели, обученные всего несколько месяцев назад», — отметил Рикельме. «Подобно тенденциям в вычислительной технике, мы наблюдаем, что модели становятся меньше, изящнее и лучше с течением времени».

Признание ограничений

Несмотря на впечатляющие возможности модели Stable LM 2 1.6B, ее размер подразумевает определенные ограничения. Stability AI предупреждает, что «из-за своей природы небольшие модели с низкой емкостью могут демонстрировать общие проблемы, такие как высокая степень галлюцинаций или возможность токсичного языка».

Прозрачность и улучшенное обучение на данных

Stability AI несколько месяцев фокусируется на создании более мощных малых LLM. В декабре 2023 года была выпущена модель StableLM Zephyr 3B, что позволило улучшить производительность в меньшем формате по сравнению с первоначальным вариантом.

Рикельме пояснил, что новые модели Stable LM 2 используют больше данных, включая многоязычные документы на шести языках помимо английского. Он подчеркнул важность порядка представления данных во время обучения, предполагая, что разнообразие типов данных на разных этапах обучения может улучшить результаты.

Для облегчения разработки Stability AI выпускает эти модели как в предобученном, так и в дообученном формате, а также «последний контрольный пункт модели перед охлаждением предобучения».

«Наша цель — предоставить инструменты для разработчиков, чтобы они могли инновационно развивать и строить на основе наших текущих моделей», — выразил свои мысли Рикельме. «Мы предлагаем специфическую полуготовую модель для экспериментов».

Он также уточнил процесс обучения, объясняя, что по мере последовательного обновления модели ее производительность улучшается. Начальная модель не обладает знаниями, тогда как последующие версии накапливают инсайты из данных. Однако Рикельме также отметил, что в конце обучения модели могут стать менее гибкими.

«Мы решили предоставить модель в ее предфинальной форме обучения, чтобы упростить пользователям специализацию на различных задачах или наборах данных. Хотя мы не можем гарантировать успех, мы верим в креативность людей в использовании новых инструментов инновационными способами».

Most people like

Find AI tools in YBX