Открытый релиз продвинутой языковой модели Meta, Llama 2, получил значительное признание среди разработчиков и исследователей, особенно благодаря своей доступности. Эта модель вдохновила создание нескольких AI-систем, включая Vicuna, Alpaca и собственную Llama 2 Long от Meta. Однако использование Llama 2 может оказаться значительно дороже, чем использование собственных альтернатив. Сообщается, что многие стартапы сталкиваются с операционными расходами на 50% до 100% выше при использовании Llama 2 по сравнению с GPT-3.5 Turbo от OpenAI, хотя самая современная GPT-4 остается еще дороже. Обе эти мощные языковые модели являются основой ChatGPT.
Иногда разница в стоимости может быть поразительной. Основатели стартапа-бота Cypher провели тесты с Llama 2 в августе, понеся значительные расходы в размере $1200, в то время как такие же тесты на GPT-3.5 Turbo обошлись им всего в $5.
Недавно OpenAI представила новую, более экономичную модель, GPT-4 Turbo, работающую по цене в один цент за 100 токенов ввода и в три раза менее дорогую, чем предыдущая версия GPT-4, имеющая 8K. На своем мероприятии DevDay OpenAI предложила разработчикам исследовать новую модель, предоставив каждому участнику $500 в виде бесплатных кредитов API. Хотя Llama 2 предоставляет открытый доступ пользователям, значительная разница в операционных расходах может отпугнуть компании от ее использования.
Понимание Разницы в Расходах
Ключевой фактор, способствующий более высоким расходам на открытые модели, заключается в инфраструктуре, используемой компаниями. OpenAI эффективно обрабатывает миллионы запросов, группируя их для одновременной обработки на мощных чипах. В отличие от этого, стартапы, такие как Cypher, которые полагаются на открытые модели и арендуют специализированные серверы через облачных провайдеров, могут не генерировать достаточный трафик для достижения аналогичной эффективности. Эта разница ограничивает их возможности использовать весь потенциал серверов.
Операционные расходы на открытые большие языковые модели могут значительно колебаться в зависимости от конкретных задач, объема запросов и необходимого уровня настройки. Для простых задач, таких как суммирование, затраты могут оставаться относительно низкими, тогда как более сложные функции могут требовать больших инвестиций.
Брэдли Шиммин, главный аналитик в области ИИ и аналитики данных, указывает на малую прозрачность в стратегиях управления расходами, применяемых OpenAI. «OpenAI, вероятно, получает выгоду от эффекта масштаба, недоступного для более мелких предприятий, пытающихся разместить крупные модели на облачных платформах, таких как AWS или Azure», — предполагает он.
Несоответствие Ресурсов
В недавнем анализе Permutable.ai были раскрыты операционные расходы на использование технологий OpenAI, которые оцениваются примерно в $1 миллион в год — в 20 раз выше затрат на использование внутренних моделей. Уилсон Чан, генеральный директор Permutable.ai, сравнивает использование ChatGPT для мелких задач с использованием «молота для расколки орехов» — это эффективно, но чрезмерно мощно. Он предостерегает от расходов на вычислительные и финансовые ресурсы, связанные с тяжелыми моделями для рутинных задач, подчеркивая важность соответствия возможностей языковой модели практическим потребностям для обеспечения эффективности затрат.
Изучение Структур Расходов
Операционные расходы на большие языковые модели существенно различаются, главным образом в зависимости от их размера. Llama 2 доступна в нескольких конфигурациях, при этом самая большая версия насчитывает 70 миллиардов параметров. Более крупные модели требуют значительной вычислительной мощности для обучения и выполнения, но часто обеспечивают улучшенную производительность.
Виктор Ботев, технический директор и сооснователь Iris.ai, отмечает, что параметры можно оптимизировать с помощью таких методов, как квантование, для снижения операционных расходов. Хотя это может снизить затраты, существует риск ухудшения качества ответов, поэтому решение должно быть тщательно взвешено в соответствии с потребностями пользователей.
Для развертывания на месте модели с менее чем 100 миллиардами параметров требуют как минимум одного блока DGX, стоимость которого составляет около $200,000. Годовые расходы на оборудование для работы Llama 2 на месте могут достигать примерно $65,000. В облачных условиях операционные расходы варьируются в зависимости от размера модели. Для моделей с менее чем 15 миллиардами параметров месячные расходы составляют около $1,000, или $12,000 в год, в то время как для моделей с примерно 70 миллиардами параметров затраты вырастают до примерно $1,500 в месяц, что составляет $18,000 в год.
Большинство моделей из коробки редко соответствуют стандартам качества компаний, что вызывает необходимость применения различных методов настройки. Настройка запросов является наименее затратным методом, стоимость которого варьируется от $10 до $1,000, тогда как затраты на настройку инструкций колеблются от $100 до $10,000. Тонкая настройка, которая изменяет фундаментальные атрибуты модели, может быть непредсказуемой, в среднем составляя около $100,000 для меньших моделей (1-5 миллиардов параметров) и достигая миллионов для более крупных конфигураций.
Переход к Меньшим Моделям
С учетом этих факторов появление меньших, более экономичных моделей для специфических приложений представляет собой многообещающую альтернативу. Варианты Llama 2 с семью миллиардами и 13 миллиардами параметров уже доступны, а инновационные модели, такие как Phi 1.5 от Microsoft и Pythia-1b от EleutherAI, набирают популярность.
Тем не менее, как подчеркивает главный аналитик Omdia, Лиан Дже Су, открытые предложения редко бывают дешевыми, особенно когда речь идет о настройке или улучшениях. Более того, хотя все модели OpenAI являются собственническими, некоторые компании, возможно, предпочли бы избежать дележа доходов через лицензирование или роялти, в результате чего стоимость модели оказывается менее критической приоритетом.
Анураг Гурту, главный продуктовый директор StrikeReady, подчеркивает, что стартапам необходимо сбалансировать стоимость модели с потенциальной доходностью инвестиций. «AI-модели могут способствовать инновациям, улучшать пользовательский опыт и оптимизировать операции. По мере продвижения вперед появление более эффективных моделей и экономичных решений сделает AI более доступным для стартапов и разработчиков», — прогнозирует он.
Доступ к Вычислительным Ресурсам
Еще один значительный фактор, влияющий на операционные расходы — это доступ к аппаратному обеспечению. В текущих конкурентных условиях компании стремятся внедрять AI-технологии, что требует мощных вычислительных ресурсов. Однако спрос превысил предложение. Nvidia, лидер рынка, недавно сообщила о значительном спросе на свои GPU, с крупными поставками во втором квартале. Поскольку конкуренты, такие как AMD и Intel, готовятся с собственными AI-миками, необходимость надежного доступа к вычислительной мощности становится критически важной.
При ограниченной доступности аппаратного обеспечения компании могут столкнуться с завышенными расходами для удовлетворения своих вычислительных требований. Арендные GPU от таких провайдеров, как Hugging Face, NexGen Cloud и AWS, доступны, однако интенсивные требования моделей, таких как Llama 2, требуют мощных вычислительных ресурсов.
Тара Уотерс, главный цифровой директор и партнер Ashurst, отмечает, что ценообразование на основе потребления публичных моделей может отпугнуть некоторые стартапы от предоставления потенциалам клиентам возможности исследования и пробования перед покупкой. Хотя наличие открытых моделей может смягчить некоторые трудности, это приносит новые проблемы, такие как необходимость соответствующей инфраструктуры для эффективного хостинга и развертывания этих моделей.
По мере evolución ситуации, появляются инновационные стратегии для управления потреблением AI-моделей и затратами. Изучение инженерии запросов без хостинга модели или разработка промежуточных решений для оптимизации распределения ресурсов для повторяющихся запросов демонстрирует находчивость, необходимую для навигации в текущей экосистеме AI.