Вы с гордостью позиционируете свои услуги как «основанные на ИИ», интегрируя крупные языковые модели (LLMs). На главной странице вашего сайта представлены интерактивные демонстрации и примеры успешных случаев, подчеркивающие преобразующий эффект ваших решений на основе ИИ и ваше вхождение в глобальный рынок генеративного ИИ.
Небольшая, но преданная база пользователей ценит улучшенный клиентский опыт, и появляются возможности для роста. Однако через три недели вы получаете неожиданное письмо от OpenAI:
Неделей ранее вы обсуждали с клиентами соответствие продукта и рынка, и внезапно ваш сайт сталкивается с резким ростом трафика, что приводит к сбоям в работе ваших услуг на базе ИИ. Этот всплеск не только вызывает недовольство у существующих пользователей, но и отпугивает новых. Быстрым решением могло бы стать увеличение лимита использования, но это оставляет вас с беспокойством о зависимости от одного провайдера и потерей контроля над затратами на ИИ.
Вы размышляете: «Следует ли мне перейти на саморазмещение?»
К счастью, открытые LLM доступны на платформах, таких как Hugging Face, что дает возможность для саморазмещения. Однако многие ведущие модели имеют миллиарды параметров и требуют значительных ресурсов для масштабирования, особенно для приложений с низкой задержкой.
Хотя вы уверены в способности своей команды создать необходимую инфраструктуру, потенциальные затраты на такой переход внушают страх:
- Затраты на дообучение
- Расходы на хостинг
- Затраты на обслуживание
Таким образом, важный вопрос остается на повестке: следует ли вам увеличить лимит использования или рассмотреть вариант саморазмещения?
Оценка LLaMA 2
Не спешите, это важное решение. Консультируясь с инженерией машинного обучения, вы обнаруживаете LLaMA 2 — открытый LLM, который показывает результаты, сопоставимые с GPT-3, вашей текущей моделью. Он доступен в трех размерах: 7 миллиардов, 13 миллиардов и 70 миллиардов параметров. Вы выбираете самый большой, чтобы оставаться конкурентоспособным.
LLaMA 2, обученная в формате bfloat16, требует 2 байта на параметр, в результате чего общий размер модели составляет 140 ГБ.
Беспокоитесь о сложности дообучения модели такого размера? Не стоит. С помощью LoRA вам нужно будет дообучить всего около 0.1% параметров — около 70 миллионов, что займет всего 0.14 ГБ.
Чтобы управлять памятью во время дообучения (включая обратное распространение и хранение данных), старайтесь поддерживать примерно в пять раз больше памяти, чем обучаемые параметры:
- Фиксированные веса модели LLaMA 2: 140 ГБ (без накладных расходов по памяти)
- Веса дообучения LoRA: 0.14 ГБ * 5 = 0.7 ГБ
Таким образом, общий объем составит примерно 141 ГБ во время дообучения.
Если у вас нет инфраструктуры для обучения, рассмотрите использование AWS. Средняя цена за час вычислений составляет ~$2.80, что в сумме дает ~$67 в день на дообучение — доступная стоимость, особенно учитывая, что дообучение не займет много времени.
Понимание затрат на обслуживание
При развертывании вам необходимо поддерживать в памяти две группы весов:
- Веса модели: 140 ГБ
- Веса дообучения LoRA: 0.14 ГБ
Общий объем составляет примерно 140.14 ГБ. Вы можете пропустить вычисления градиентов, но целесообразно иметь около 1.5 раза больше памяти для непредвиденных накладных расходов (около 210 ГБ).
В AWS стоимость вычислений на GPU составляет около $3.70 в час или ~$90 в день, что в итоге приводит к ежемесячным расходам примерно $2,700.
Кроме того, планируйте на случай непредвиденных обстоятельств. Чтобы избежать перерывов в обслуживании, рассмотрите возможность удержания резервной модели, что увеличит расходы до примерно $180 в день или $5,400 в месяц — почти равна вашим текущим расходам на OpenAI.
Анализ точек безубыточности
Продолжение работы с OpenAI обеспечит приблизительную дневную производительность, которая соотвествует затратам, возникающим при дообучении LLaMA 2:
Стоимость дообучения GPT 3.5 Turbo составляет $0.008 за 1K токенов. Предположим, что у нас два токена на слово; чтобы сбалансировать расходы на дообучение открытой модели ($67 в день), вам нужно обрабатывать примерно 4.15 миллиона слов в день — около 14,000 страниц данных.
Этот объем может быть невозможен для большинства организаций, что делает использование OpenAI для дообучения обычно более экономичным.
Итог: когда владение будет оправдано?
Саморазмещение ИИ может показаться заманчивым на первый взгляд, но будьте осторожны с скрытыми расходами. Хотя сторонние провайдеры снимают многие проблемы управления LLM, у них есть свои преимущества, особенно для сервисов, использующих ИИ, а не сосредоточенных на нем.
Для крупных корпораций годовые расходы на владение в размере $65,000 могут показаться приемлемыми, но для большинства бизнесов это значительная сумма. Не забывайте об дополнительных расходах на таланты и обслуживание, которые могут увеличить общие затраты до $200,000-250,000 и более каждый год.
Хотя владение моделью предоставляет контроль над данными и использованием, вам необходимо превышать примерно 22.2 миллиона слов в день по запросам пользователей, а также логистические ресурсы, необходимые для управления этими требованиями. Для многих случаев финансовые преимущества саморазмещения по сравнению с использованием API остаются неясными.