В текущей гонке в сфере искусственного интеллекта, где крупные компании стремятся создать все более объемные языковые модели (LLM), появляется важная тенденция: малые модели становятся новыми большими. Поскольку достижения LLM начинают достигать плато, исследователи и разработчики переключают внимание на малые языковые модели (SLM). Эти компактные, эффективные и адаптируемые модели переосмысливают AI-ландшафт, опровергая представление о том, что больше всегда лучше.
Начали ли LLM достигать плато?
Недавние сравнения производительности от Vellum и HuggingFace показывают, что разрыв между LLM сужается. Это особенно заметно в задачах, таких как вопросы с несколькими вариантами ответов, логическое мышление и математические задачи, где ведущие модели демонстрируют минимальные различия в производительности. Например, в сценариях с выбором ответа Claude 3 Opus, GPT-4 и Gemini Ultra все показывают результаты выше 83%. В задачах на логическое мышление результаты также схожи: Claude 3 Opus, GPT-4 и Gemini 1.5 Pro превышают 92% точности.
Интересно, что более мелкие модели, такие как Mixtral 8x7B и Llama 2 – 70B, демонстрируют многообещающие результаты в определенных областях, превосходя некоторых крупных конкурентов. Это дает основание полагать, что факторы, такие как архитектура, обучающие данные и методы тонкой настройки, могут иметь решающее значение для производительности, оспаривая мнение о том, что размер является главным определяющим фактором.
Гэри Маркус, бывший глава Uber AI и автор книги «Перезагрузка AI», отмечает, что недавние исследования указывают на тенденцию к консолидации производительности моделей. «Хотя некоторые новые модели могут слегка превосходить GPT-4, за последний год не произошло значительных прорывов,» говорит Маркус.
По мере того как разрыв в производительности продолжает сокращаться, возникают вопросы о том, действительно ли LLM достигают плато. Если эта тенденция сохранится, будущее развития AI может сместиться с простого увеличения размера модели в сторону изучения более эффективных и специализированных архитектур.
Недостатки подхода LLM
Несмотря на их мощь, у LLM есть значительные недостатки. Обучение этих моделей требует огромных объемов данных и колоссальных вычислительных ресурсов, что делает процесс крайне ресурсоемким. Например, генеральный директор OpenAI Сэм Альтман сообщил, что обучение GPT-4 обошлось как минимум в 100 миллионов долларов. Сложность, связанная с LLM, ставит перед разработчиками крутой учебный курс, создавая барьеры к доступу. Компаниям может потребоваться 90 дней или больше для развертывания одной модели машинного обучения, замедляя инновации.
Еще одной проблемой является склонность LLM генерировать "галлюцинации", создавая выводы, которые кажутся правдоподобными, но на самом деле ложны. Эта ограниченность возникает из-за того, что LLM предсказывают слова на основе обучающих шаблонов, не обладая истинным пониманием. Следовательно, могут уверенно возникать неправильные или бессмысленные выводы, что представляет опасность в критически важных приложениях, таких как здравоохранение и автономное вождение.
Масштабный и непрозрачный характер LLM усложняет интерпретацию и отладку, что критически важно для обеспечения доверия к выводам. Более того, предвзятые обучающие данные могут приводить к вредным результатам, в то время как попытки сделать LLM более надежными могут непреднамеренно снизить их эффективность.
Вступление малых языковых моделей (SLM)
SLM предлагают решение многих проблем, связанных с LLM. Обладая меньшим числом параметров и более простыми структурами, SLM требуют меньше данных и времени на обучение — зачастую всего несколько минут или часов, в отличие от LLM, которые требуют дней. Эта эффективность позволяет легче внедрять их на маломощных устройствах.
Одно из основных преимуществ SLM — их адаптивность для конкретных приложений. Их можно тонко настраивать для таких областей, как анализ настроений или ответ на специфические вопросы, что обеспечивает превосходную производительность по сравнению с универсальными моделями. Такая специализация улучшает эффективность в целевых задачах.
Кроме того, SLM предлагают улучшенную конфиденциальность и безопасность. Их более простая архитектура облегчает аудит и снижает вероятность наличия уязвимостей, что критично для таких секторов, как здравоохранение и финансы. Сниженные вычислительные потребности позволяют SLM работать локально на устройствах, повышая безопасность данных и минимизируя риски утечки информации при передаче.
SLM менее подвержены галлюцинациям, поскольку они обычно обучаются на узких наборах данных, относящихся к их приложениям. Это сосредоточение снижает вероятность генерации нерелевантных результатов, обеспечивая более надежную работу.
Клем Деланж, генеральный директор HuggingFace, предполагает, что до 99% случаев использования могут быть эффективно решены с помощью SLM, предсказывая, что в 2024 году наблюдается рост их популярности. HuggingFace наладил партнерство с Google, интегрировав свою платформу в Vertex AI от Google, что позволяет быстро развертывать тысячи моделей.
Инициатива Gemma от Google
После первоначальных потерь перед OpenAI в гонке за LLM, Google теперь активно развивает SLM. В феврале компания запустила Gemma — серию малых языковых моделей, разработанных для эффективности и удобства. Эти модели могут функционировать на обычных устройствах, таких как смартфоны и ноутбуки, без необходимости в значительных ресурсах.
С момента выпуска обученные модели Gemma были скачаны более 400 000 раз на HuggingFace, что привело к возникновению инновационных проектов. Одним из заметных достижений является Cerule, мощная модель изображения и языка, объединяющая Gemma 2B с SigLIP от Google, способная успешно работать без обширных данных. Другой пример — CodeGemma, специализированная версия, ориентированная на кодирование и математическое reasoning, предоставляющая адаптированные модели для различных задач, связанных с кодированием.
Трансформационный потенциал SLM
Поскольку сообщество AI более глубоко изучает преимущества SLM, очевидны плюсы более быстрых циклов разработки, улучшенной эффективности и целевых решений. SLM могут демократизировать доступ к AI и способствовать инновациям в различных отраслях, обеспечивая экономически эффективные и специфические применения.
Развертывание SLM на краю открывает возможности для реального времени, персонализированных и безопасных приложений в таких сферах, как финансы, развлечения, автомобилестроение, образование, электронная коммерция и здравоохранение. Обрабатывая данные локально и минимизируя зависимость от облачной инфраструктуры, SLM усиливают конфиденциальность данных и улучшают пользовательские впечатления.
Поскольку LLM сталкиваются с проблемами, связанными с вычислительными требованиями и потенциальными плато в производительности, рост SLM обещает стимулировать развитие AI-экосистемы с впечатляющей скоростью.