Le lancement en open-source du modèle de traitement du langage avancé de Meta, Llama 2, a suscité un vif intérêt chez les développeurs et chercheurs, en particulier grâce à son accessibilité. Ce modèle a inspiré le développement de plusieurs systèmes d'IA, notamment Vicuna, Alpaca, et la version améliorée Llama 2 Long de Meta. Cependant, l'exploitation de Llama 2 peut s'avérer nettement plus coûteuse que celle des alternatives propriétaires. Des rapports indiquent que de nombreuses startups constatent des coûts d'exploitation supérieurs de 50% à 100% en utilisant Llama 2 par rapport à GPT-3.5 Turbo d'OpenAI, bien que le modèle de pointe GPT-4 soit encore plus onéreux. Ces deux modèles de langage puissants sont essentiels à ChatGPT.
Parfois, les écarts de coûts sont surprenants. Les fondateurs de la startup de chatbot Cypher ont effectué des tests avec Llama 2 en août, entraînant des frais élevés de 1 200 $, tandis que les mêmes tests sur GPT-3.5 Turbo ne leur ont coûté que 5 $.
Récemment, OpenAI a présenté un nouveau modèle plus économique, GPT-4 Turbo, qui fonctionne à un cent par 100 jetons d'entrée et est trois fois moins cher que la version précédente de 8K. Lors de leur événement DevDay, OpenAI a incité les développeurs à découvrir ce nouveau modèle en offrant 500 $ de crédits d'API gratuits à chaque participant. Bien que Llama 2 propose un accès ouvert, la différence significative des coûts d'exploitation pourrait dissuader les entreprises de l'adopter.
Comprendre l'Écart de Coût
Un facteur clé derrière les coûts élevés des modèles open-source réside dans l'infrastructure utilisée par les entreprises. OpenAI est en mesure de traiter efficacement des millions de demandes en les regroupant pour un traitement simultané sur des puces haute performance. En revanche, des startups comme Cypher, qui s'appuient sur des modèles open-source et louent des serveurs spécialisés via des fournisseurs de cloud, pourraient ne pas générer un trafic suffisant pour réaliser des gains d'efficacité similaires. Cet écart limite leur capacité à exploiter pleinement le potentiel des serveurs.
Les coûts opérationnels liés aux modèles de langage open-source peuvent fluctuer considérablement, selon les tâches exécutées, le volume de demandes et le degré de personnalisation requis. Pour des tâches simples telles que la summarisation, les coûts peuvent rester relativement bas, tandis que des fonctions plus complexes peuvent nécessiter un investissement plus important.
Bradley Shimmin, analyste en chef pour l'IA et l'analyse de données, souligne qu'il existe peu de transparence sur les stratégies de gestion des coûts d'OpenAI. « OpenAI bénéficie probablement d'économies d'échelle que les petites entreprises n'ont pas lors de l'hébergement de modèles étendus sur des plateformes cloud comme AWS ou Azure », suggère-t-il.
Un Désalignement des Ressources
Dans une analyse récente, Permutable.ai a révélé ses coûts opérationnels pour l'utilisation de la technologie d'OpenAI, estimés à environ 1 million de dollars par an—20 fois le coût d'utilisation de modèles internes. Wilson Chan, PDG de Permutable.ai, compare l'utilisation de ChatGPT pour des tâches mineures à l'utilisation d'un « marteau-piqueur pour casser une noix »—efficace mais excessif. Il met en garde contre les ressources computationnelles et financières associées aux modèles lourds pour des tâches routinières, soulignant l'importance d'adapter les capacités du modèle d'IA aux besoins pratiques pour garantir une rentabilité.
Explorer les Structures de Coût
Les dépenses opérationnelles des modèles de langage varient considérablement, principalement en fonction de leur taille. Llama 2 est proposé en plusieurs configurations, la plus grande affichant 70 milliards de paramètres. Les modèles plus volumineux nécessitent une puissance de calcul substantielle pour la formation et l'exécution, mais ils offrent souvent des performances accrues.
Victor Botev, CTO et co-fondateur d'Iris.ai, note que les paramètres peuvent être optimisés par des techniques comme la quantification pour réduire les coûts opérationnels. Bien que cela puisse diminuer les dépenses, cela comporte le risque de diminuer la qualité des réponses, rendant la décision à prendre très délicate selon les besoins des utilisateurs.
Pour les déploiements sur site, les modèles de moins de 100 milliards de paramètres nécessitent au moins un boîtier DGX, coûtant environ 200 000 $. Les dépenses matérielles annuelles pour faire fonctionner Llama 2 sur site peuvent atteindre environ 65 000 $. Dans les environnements cloud, les coûts opérationnels varient selon la taille du modèle. Pour ceux de moins de 15 milliards de paramètres, la dépense mensuelle est d'environ 1 000 $, soit 12 000 $ par an, tandis que pour les modèles d'environ 70 milliards de paramètres, les coûts s'élèvent à environ 1 500 $ par mois, totalisant 18 000 $ par an.
La plupart des modèles de base ne répondent que rarement aux normes de qualité des entreprises, ce qui nécessite d'utiliser diverses techniques d'ajustement. L'ajustement de prompt est la méthode la moins coûteuse, avec un tarif variant de 10 à 1 000 $, tandis que l'ajustement des instructions coûte entre 100 et 10 000 $. L'ajustement fin, modifiant des attributs fondamentaux du modèle, peut être imprévisible, avec des coûts moyens d'environ 100 000 $ pour des modèles plus petits (1-5 milliards de paramètres) et atteignant des millions pour des configurations plus grandes.
Un Tournant vers des Modèles Plus Petits
À la lumière de ces considérations, l'émergence de modèles plus petits et plus rentables pour des applications spécifiques représente une alternative prometteuse. Des variantes de Llama 2 avec sept et 13 milliards de paramètres sont déjà disponibles, et des modèles innovants comme le Phi 1.5 de Microsoft et le Pythia-1b d'EleutherAI gagnent du terrain.
Cependant, comme le souligne Lian Jye Su, analyste en chef chez Omdia, les offres open-source sont rarement bon marché, en particulier lorsque des personnalisations ou des améliorations sont nécessaires. De plus, bien que tous les modèles d'OpenAI soient propriétaires, certaines entreprises préfèrent peut-être éviter de partager des revenus via des licences ou des redevances, reléguant ainsi le coût du modèle à une priorité moins critique.
Anurag Gurtu, CPO de StrikeReady, souligne que les startups doivent équilibrer les coûts du modèle avec les retours potentiels sur investissement. « Les modèles d'IA peuvent stimuler l'innovation, améliorer l'expérience utilisateur et optimiser les opérations. À mesure que nous progressons, l'émergence de modèles plus efficaces et de solutions rentables devrait rendre l'IA plus accessible aux startups et aux développeurs », prédit-il.
Accès aux Ressources Informatiques
Un autre facteur significatif influençant les coûts opérationnels est l'accès au matériel. Dans le paysage concurrentiel actuel, les entreprises cherchent à déployer des technologies d'IA, nécessitant des ressources informatiques solides. Toutefois, la demande a dépassé l'offre. Nvidia, leader du marché, a récemment signalé une demande considérable pour ses GPUs, avec des livraisons importantes au deuxième trimestre. Alors que des concurrents comme AMD et Intel se préparent avec leurs propres puces AI, le besoin d'accès fiable à la puissance de calcul devient vital.
Avec une disponibilité limitée de matériel, les entreprises pourraient faire face à des coûts gonflés pour satisfaire leurs besoins computationnels. Des GPUs louables provenant de fournisseurs tels que Hugging Face, NexGen Cloud, et AWS sont disponibles, mais les exigences intensives de modèles comme Llama 2 nécessitent des ressources informatiques puissantes.
Tara Waters, responsable digitale et partenaire chez Ashurst, note que la tarification basée sur la consommation des modèles publics peut dissuader certaines startups de permettre aux clients potentiels d'explorer et d'essayer avant l'achat. Bien que l'accès aux modèles open-source puisse atténuer certains défis, il entraîne de nouveaux obstacles, comme la nécessité d'une infrastructure appropriée pour héberger et déployer ces modèles efficacement.
Avec l'évolution du paysage, des stratégies innovantes émergent pour gérer la consommation et les coûts des modèles d'IA. Explorer l'ingénierie des prompts sans héberger le modèle ou développer des solutions intermédiaires pour rationaliser l'allocation des ressources pour des requêtes répétitives illustre l'ingéniosité nécessaire pour naviguer dans l'écosystème actuel de l'IA.