Как меньшие LLM могут значительно снизить затраты на генеративный ИИ

К steadily растущим затратам на большие языковые модели (БЯМ), управляющие генеративным ИИ, в технологической отрасли возникает серьезная озабоченность. Однако меньшие модели предлагают многообещающее решение. «Появление БЯМ, таких как GPT-4, продемонстрировало значительные достижения в производительности, но эти улучшения также привели к увеличению затрат», — заявил Аднан Масуд, главный архитектор ИИ в UST, в недавнем интервью. Он отметил, что вычислительные требования БЯМ — из-за их огромного размера и миллиардов параметров — требуют значительных ресурсов. Эта высокая вычислительная интенсивность приводит к существенному потреблению энергии, что, в свою очередь, увеличивает операционные расходы и вызывает экологические тревоги.

«С размером моделей, часто превышающим емкость памяти GPU, наблюдается растущая зависимость от специализированного оборудования или сложного параллелизма моделей, что многократно увеличивает инфраструктурные затраты», — добавил Масуд. Он подчеркнул, что меньшие языковые модели могут как снизить затраты, так и повысить эффективность, если их тщательно настроить. Техники, такие как дистилляция и квантование моделей, могут эффективно сжать и оптимизировать эти меньшие модели. Дистилляция включает в себя обучение меньшей модели на выходах более крупной, в то время как квантование снижает точность числовых весов модели, создавая модель, которая легче и быстрее.

Снижение количества параметров у меньших моделей напрямую приводит к уменьшению требований к вычислительной мощности, что позволяет быстрее делать выводы и потенциально сокращает время обучения. «Эта компактная модель позволяет бесшовно интегрироваться в стандартную память GPU, существенно устраняя необходимость в более дорогих специализированных системах», — подробно объяснил он. Это сокращение в потреблении вычислительных мощностей и памяти не только уменьшает энергозатраты, но и снижает операционные расходы. Использование API для ранних доказательств концепций или прототипов в производственных нагрузках дополнительно приносит пользу организациям, особенно из-за более низких затрат на токены при масштабировании. Однако Масуд предостерег, что полная зависимость от больших языковых моделей может привести к экспоненциальному росту затрат, когда приложения быстро развиваются.

Помимо сокращения времени и затрат на обучение, меньшие языковые модели могут значительно снизить расходы на облачную инфраструктуру, как отметил Мэтт Баррингтон, лидер Emerging Technology в EY для Америки. Например, тонкая настройка специализированной модели в облаке приводит к снижению потребления ресурсов. Этот переход позволяет компаниям более эффективно выделять свои ИИ-ресурсы, сосредоточив внимание на областях, приближающих их к конечному пользователю. «Применяя компактные языковые модели в edge computing, компании могут снизить зависимость от дорогих облачных ресурсов, что приводит к значительной экономии», — подтвердил он.

Уже сейчас есть несколько многообещающих примеров эффективных ИИ-моделей, которые находятся в использовании. По словам Масуда, недавние модели, такие как phi-1.5, демонстрируют производственные способности, сопоставимые с более крупными моделями, такими как GPT-4. Кроме того, специализированные модели, такие как Med-PaLM 2, были созданы специально для здравоохранения, а Sec-Palm предназначен для приложений безопасности. Более того, такие модели, как Llama 2 70b, становятся экономически эффективными альтернативами, цены на которые значительно ниже по сравнению с конкурентами, такими как PaLM 2 от Google, что демонстрирует значительное снижение по сравнению с предыдущими версиями моделей. Стоит отметить, что 13-миллиардная модель LLaMA от Meta превзошла в ряде тестов более крупную GPT-3.

Инициативы, такие как BabyLM challenge в Университете Джонса Хопкинса, направлены на повышение эффективности меньших моделей, чтобы они могли конкурировать с БЯМ. Кроме того, Amazon предлагает рынок для этих компактных моделей, которые можно адаптировать под конкретные потребности данных компаний. Организации, такие как Anyscale и MosaicML, также продают модели, такие как 70-миллиардная Llama 2, по доступным ценам, подчеркивая нарастающий сдвиг в сторону эффективных и бюджетных решений.

С учетом продолжающего роста затрат на большие языковые модели, становится все более очевидным, что необходимо искать экономически жизнеспособные альтернативы. Обучение этих моделей влечет за собой значительные расходы, особенно на GPU, таких как H100 от Nvidia, цена которых может превышать 30 000 долларов за единицу. «Существует лист ожидания на такие GPU, и некоторые венчурные капиталисты используют их, чтобы привлечь стартапы для финансирования», — отметил Мудду Судхакар, генеральный директор Aisera.

Даже при приобретении GPU важен стабильный доход для покрытия их высоких затрат, подчеркнул Судхакар. Он сослался на недавний блог венчурной компании Sequoia, выделяющий значительный разрыв в монетизации, который может тормозить рост рынка генеративного ИИ. «После обеспечения GPU компании сталкиваются с проблемой привлечения дата-ученых, чьи компенсационные пакеты могут быть значительными», — объяснил он. «Более того, внедрение БЯМ дорогостоящее из-за постоянных требований обработки взаимодействий, управления и обновления моделей, а также решения различных проблем безопасности».

Смотря в будущее, Масуд предполагает, что тонко настроенные БЯМ достигнут уровней производительности, сопоставимых с их более крупными аналогами, но по значительно более низкой цене. Сообщество разработчиков с открытым исходным кодом уже решает практические задачи с помощью инноваций, таких как LongLoRA, которая значительно расширяет контекстные окна. «Если текущие тенденции продолжают наблюдаться, мы вскоре можем стать свидетелями синтеза моделей с открытым исходным кодом и меньших БЯМ, формируя основу экосистемы языкового моделирования нового поколения», — заключил он.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles