Vous avez fièrement positionné vos services comme « alimentés par l'IA » grâce à l'intégration de modèles de langage à grande échelle (LLMs). La page d'accueil de votre site présente l'impact transformateur de vos solutions pilotées par l'IA avec des démonstrations interactives et des études de cas, marquant ainsi votre entrée dans l'univers de l'IA générative mondiale. Votre base d'utilisateurs, bien que petite, est dédiée et apprécie l'expérience client améliorée, tandis que des opportunités de croissance se dessinent. Cependant, trois semaines après le début du mois, un e-mail d'OpenAI vous prend par surprise :
« »
Une semaine auparavant, vous étiez en train de converser avec des clients, d'évaluer l'adéquation produit-marché, et soudain, le trafic de votre site explose, faisant planter vos services alimentés par l'IA. Cette hausse frustre non seulement vos utilisateurs existants mais dissuade également les nouveaux. Une solution rapide consisterait à augmenter votre limite d'utilisation, mais cela vous rend méfiant vis-à-vis d'un fournisseur unique et de la perte de contrôle sur vos coûts liés à l'IA. Vous vous demandez : « Devrais-je opter pour l'auto-hébergement ? »
Heureusement, des LLMs open-source sont facilement disponibles sur des plateformes telles que Hugging Face, offrant ainsi l'option d'auto-hébergement. Cependant, de nombreux modèles leaders comptent des milliards de paramètres et nécessitent des ressources importantes pour évoluer, en particulier pour les applications à faible latence. Bien que vous ayez confiance en la capacité de votre équipe à construire l'infrastructure nécessaire, les coûts potentiels d'une telle transition sont préoccupants :
- Coûts de fine-tuning
- Dépenses d'hébergement
- Coûts de service
La question pressante demeure : devrais-je augmenter la limite d'utilisation ou poursuivre l'auto-hébergement ?
Évaluation de LLaMA 2
Prenez votre temps ; c'est une décision importante. En consultant vos ingénieurs en machine learning, vous découvrez LLaMA 2, un LLM open-source qui fonctionne de manière comparable à GPT-3, votre modèle actuel. Il existe en trois tailles : 7 milliards, 13 milliards et 70 milliards de paramètres. Vous optez pour le modèle le plus grand afin de rester compétitif.
LLaMA 2, entraîné au format bfloat16, nécessite 2 octets par paramètre, soit un poids total de modèle de 140 Go. Vous craignez la complexité du fine-tuning d'un modèle de cette taille ? Rassurez-vous. Avec LoRA, il vous suffira de peaufiner environ 0,1 % des paramètres—environ 70 millions—consommant seulement 0,14 Go.
Pour gérer la surcharge mémoire lors du fine-tuning (y compris la rétropropagation et le stockage des données), visez à maintenir environ cinq fois la mémoire des paramètres entraînables :
- Poids fixes du modèle LLaMA 2 : 140 Go (sans surcharge mémoire)
- Poids de fine-tuning LoRA : 0,14 Go * 5 = 0,7 Go
Cela porte le total à environ 141 Go lors du fine-tuning. Si vous manquez d'infrastructure d'entraînement, envisagez d'utiliser AWS. Le prix à la demande est d'environ 2,80 $ de l'heure pour le calcul, soit environ 67 $ par jour pour le fine-tuning—un coût abordable, surtout que le fine-tuning ne prendra pas longtemps.
Comprendre les Coûts de Service
Lors du déploiement, vous devez maintenir deux ensembles de poids en mémoire :
- Poids du modèle : 140 Go
- Poids de fine-tuning LoRA : 0,14 Go
Totalisant environ 140,14 Go.
Vous pourriez éviter le calcul du gradient, mais il est judicieux de maintenir environ 1,5 fois plus de mémoire pour une surcharge imprévue (environ 210 Go). Sur AWS, le coût de l’informatique GPU est d’environ 3,70 $ de l’heure—soit environ 90 $ par jour—ce qui entraîne une dépense mensuelle d’environ 2 700 $.
De plus, prévoyez des imprévus. Pour éviter les interruptions de service, envisagez de maintenir un modèle redondant, ce qui augmentera les coûts à environ 180 $ par jour ou 5 400 $ par mois—pratiquement équivalent à vos dépenses actuelles chez OpenAI.
Analyse des Points de Seuil de Coût
Continuer avec OpenAI vous permettra d'atteindre une capacité de traitement quotidienne approximative pour égaler les coûts engagés avec le fine-tuning de LLaMA 2 :
Le fine-tuning de GPT 3.5 Turbo coûte 0,008 $ pour 1 000 tokens. En supposant deux tokens par mot, pour équilibrer les frais de fine-tuning du modèle open-source (67 $/jour), vous devez traiter environ 4,15 millions de mots par jour—soit environ 14 000 pages de données.
Ce volume peut être irréaliste pour la plupart des organisations à rassembler, ce qui signifie que l'utilisation d'OpenAI pour le fine-tuning est généralement plus économique.
En Bref : Quand la Propriété en Vaut-elle la Peine ?
L'auto-hébergement d'IA peut sembler tentant à première vue, mais attention aux coûts cachés. Bien que les fournisseurs tiers atténuent de nombreux défis liés à la gestion des LLMs, ils présentent également des avantages, en particulier pour les services qui exploitent l'IA plutôt que de se concentrer uniquement sur elle.
Pour les grandes entreprises, le coût annuel de possession de 65 000 $ peut sembler gérable, mais pour la plupart des entreprises, c'est un chiffre conséquent. Ne négligez pas les dépenses supplémentaires liées aux talents et à la maintenance, qui peuvent faire grimper les coûts totaux à 200 000-250 000 $ ou plus chaque année.
Bien que posséder un modèle offre un contrôle sur les données et l'utilisation, vous devez dépasser environ 22,2 millions de mots par jour en demandes d'utilisateur, ainsi que les ressources logistiques nécessaires pour gérer ces exigences. Pour de nombreux cas d'utilisation, les avantages financiers de l'auto-hébergement par rapport à l'utilisation d'une API demeurent flous.