OpenAI против собственного хостинга: Узнайте реальные затраты на хостинг собственных языковых моделей.

Вы с гордостью позиционируете свои услуги как «основанные на ИИ», интегрируя крупные языковые модели (LLMs). На главной странице вашего сайта представлены интерактивные демонстрации и примеры успешных случаев, подчеркивающие преобразующий эффект ваших решений на основе ИИ и ваше вхождение в глобальный рынок генеративного ИИ.

Небольшая, но преданная база пользователей ценит улучшенный клиентский опыт, и появляются возможности для роста. Однако через три недели вы получаете неожиданное письмо от OpenAI:

Неделей ранее вы обсуждали с клиентами соответствие продукта и рынка, и внезапно ваш сайт сталкивается с резким ростом трафика, что приводит к сбоям в работе ваших услуг на базе ИИ. Этот всплеск не только вызывает недовольство у существующих пользователей, но и отпугивает новых. Быстрым решением могло бы стать увеличение лимита использования, но это оставляет вас с беспокойством о зависимости от одного провайдера и потерей контроля над затратами на ИИ.

Вы размышляете: «Следует ли мне перейти на саморазмещение?»

К счастью, открытые LLM доступны на платформах, таких как Hugging Face, что дает возможность для саморазмещения. Однако многие ведущие модели имеют миллиарды параметров и требуют значительных ресурсов для масштабирования, особенно для приложений с низкой задержкой.

Хотя вы уверены в способности своей команды создать необходимую инфраструктуру, потенциальные затраты на такой переход внушают страх:

- Затраты на дообучение

- Расходы на хостинг

- Затраты на обслуживание

Таким образом, важный вопрос остается на повестке: следует ли вам увеличить лимит использования или рассмотреть вариант саморазмещения?

Оценка LLaMA 2

Не спешите, это важное решение. Консультируясь с инженерией машинного обучения, вы обнаруживаете LLaMA 2 — открытый LLM, который показывает результаты, сопоставимые с GPT-3, вашей текущей моделью. Он доступен в трех размерах: 7 миллиардов, 13 миллиардов и 70 миллиардов параметров. Вы выбираете самый большой, чтобы оставаться конкурентоспособным.

LLaMA 2, обученная в формате bfloat16, требует 2 байта на параметр, в результате чего общий размер модели составляет 140 ГБ.

Беспокоитесь о сложности дообучения модели такого размера? Не стоит. С помощью LoRA вам нужно будет дообучить всего около 0.1% параметров — около 70 миллионов, что займет всего 0.14 ГБ.

Чтобы управлять памятью во время дообучения (включая обратное распространение и хранение данных), старайтесь поддерживать примерно в пять раз больше памяти, чем обучаемые параметры:

- Фиксированные веса модели LLaMA 2: 140 ГБ (без накладных расходов по памяти)

- Веса дообучения LoRA: 0.14 ГБ * 5 = 0.7 ГБ

Таким образом, общий объем составит примерно 141 ГБ во время дообучения.

Если у вас нет инфраструктуры для обучения, рассмотрите использование AWS. Средняя цена за час вычислений составляет ~$2.80, что в сумме дает ~$67 в день на дообучение — доступная стоимость, особенно учитывая, что дообучение не займет много времени.

Понимание затрат на обслуживание

При развертывании вам необходимо поддерживать в памяти две группы весов:

- Веса модели: 140 ГБ

- Веса дообучения LoRA: 0.14 ГБ

Общий объем составляет примерно 140.14 ГБ. Вы можете пропустить вычисления градиентов, но целесообразно иметь около 1.5 раза больше памяти для непредвиденных накладных расходов (около 210 ГБ).

В AWS стоимость вычислений на GPU составляет около $3.70 в час или ~$90 в день, что в итоге приводит к ежемесячным расходам примерно $2,700.

Кроме того, планируйте на случай непредвиденных обстоятельств. Чтобы избежать перерывов в обслуживании, рассмотрите возможность удержания резервной модели, что увеличит расходы до примерно $180 в день или $5,400 в месяц — почти равна вашим текущим расходам на OpenAI.

Анализ точек безубыточности

Продолжение работы с OpenAI обеспечит приблизительную дневную производительность, которая соотвествует затратам, возникающим при дообучении LLaMA 2:

Стоимость дообучения GPT 3.5 Turbo составляет $0.008 за 1K токенов. Предположим, что у нас два токена на слово; чтобы сбалансировать расходы на дообучение открытой модели ($67 в день), вам нужно обрабатывать примерно 4.15 миллиона слов в день — около 14,000 страниц данных.

Этот объем может быть невозможен для большинства организаций, что делает использование OpenAI для дообучения обычно более экономичным.

Итог: когда владение будет оправдано?

Саморазмещение ИИ может показаться заманчивым на первый взгляд, но будьте осторожны с скрытыми расходами. Хотя сторонние провайдеры снимают многие проблемы управления LLM, у них есть свои преимущества, особенно для сервисов, использующих ИИ, а не сосредоточенных на нем.

Для крупных корпораций годовые расходы на владение в размере $65,000 могут показаться приемлемыми, но для большинства бизнесов это значительная сумма. Не забывайте об дополнительных расходах на таланты и обслуживание, которые могут увеличить общие затраты до $200,000-250,000 и более каждый год.

Хотя владение моделью предоставляет контроль над данными и использованием, вам необходимо превышать примерно 22.2 миллиона слов в день по запросам пользователей, а также логистические ресурсы, необходимые для управления этими требованиями. Для многих случаев финансовые преимущества саморазмещения по сравнению с использованием API остаются неясными.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles