Comment les LLMs plus petits peuvent considérablement réduire les coûts de l'IA générative.

Les coûts croissants associés aux grands modèles de langage (LLMs) alimentant l'intelligence artificielle générative suscitent de vives inquiétudes au sein de l'industrie technologique. En revanche, les modèles plus petits offrent une solution prometteuse. « L'émergence de LLMs comme GPT-4 a mis en lumière des avancées remarquables en termes de performance, mais ces améliorations ont également entraîné une augmentation des coûts », a déclaré Adnan Masood, architecte en chef de l'IA chez UST, lors d'une récente interview. Il a souligné que les exigences computationnelles des LLMs, dues à leurs tailles massives et à leurs milliards de paramètres, nécessitent une puissance considérable. Cette intensité computationnelle élevée entraîne une consommation d'énergie importante, ce qui augmente les dépenses opérationnelles et soulève des préoccupations environnementales.

« Avec des tailles de modèles dépassant souvent les capacités de mémoire des GPU, la dépendance aux matériels spécialisés ou à un modèle de parallélisme complexe accroît les coûts d'infrastructure », a ajouté Masood. Il a insisté sur le fait que les modèles de langage plus petits peuvent non seulement réduire les coûts, mais aussi améliorer l'efficacité lorsqu'ils sont soigneusement optimisés. Des techniques comme la distillation de modèle et la quantification peuvent compresser et optimiser ces modèles plus petits. La distillation consiste à entraîner un modèle plus petit sur les résultats d'un modèle plus grand, tandis que la quantification réduit la précision des poids numériques du modèle, créant ainsi un modèle plus petit et plus rapide.

La diminution du nombre de paramètres des modèles plus petits se traduit directement par une réduction des besoins en puissance de calcul, permettant des inférences plus rapides et potentiellement des temps d'entraînement plus courts. « Cet empreinte compacte permet une intégration sans faille dans la mémoire standard des GPU, éliminant ainsi la nécessité de configurations matérielles spécialisées plus coûteuses », a-t-il précisé. Cette réduction de l'utilisation des ressources computationnelles et de la mémoire diminue non seulement la consommation d'énergie, mais réduit également les coûts d'exploitation. L'utilisation d'APIs pour des preuves de concept précoces ou des prototypes dans des charges de travail de production offre de nouveaux avantages aux entreprises, notamment grâce à des coûts par jeton inférieurs lors de l'échelle. Cependant, Masood a averti qu'une dépendance excessive aux LLMs plus grands peut entraîner des hausses de coûts exponentielles lors de la croissance rapide des applications.

En plus de réduire les temps d'entraînement et les coûts, les modèles de langage plus petits peuvent considérablement alléger les dépenses d'infrastructure cloud, comme l'a souligné Matt Barrington, leader des technologies émergentes chez EY pour les Amériques. Par exemple, le perfectionnement d'un modèle spécifique à un domaine sur des plateformes cloud entraîne une moindre utilisation des ressources. Ce changement permet aux entreprises d'allouer leurs ressources en IA plus efficacement, en se concentrant sur les domaines qui les rapprochent de l'utilisateur final. « En adoptant des modèles de langage compacts dans le edge computing, les entreprises peuvent réduire leur dépendance à des ressources cloud coûteuses, entraînant d'importantes économies », a-t-il confirmé.

Des exemples prometteurs de modèles d'IA efficaces sont déjà déployés. Des modèles récents comme phi-1.5 démontrent des capacités de performance rivalisant avec celles de modèles plus grands tels que GPT-4, selon Masood. De plus, des modèles spécialisés comme Med-PaLM 2 sont conçus spécifiquement pour le secteur de la santé, tandis que Sec-Palm est destiné aux applications de sécurité. En outre, des modèles comme Llama 2 70b émergent comme des alternatives économiques, proposant des prix nettement inférieurs à ceux de leurs concurrents, tel que PaLM 2 de Google, montrant une réduction marquée par rapport aux itérations précédentes. À noter, le modèle LLaMA de Meta avec 13 milliards de paramètres a surpassé le plus grand GPT-3 dans plusieurs benchmarks.

Des initiatives comme le défi BabyLM à l'Université Johns Hopkins visent à améliorer l'efficacité des modèles plus petits pour rivaliser avec ceux des LLMs. De plus, Amazon propose une place de marché pour ces modèles compacts, pouvant être adaptés aux besoins spécifiques des données des entreprises. Des organisations comme Anyscale et MosaicML vendent également des modèles tels que Llama 2 avec 70 milliards de paramètres à des tarifs abordables, soulignant un changement croissant vers des solutions efficaces et économiques.

Alors que les coûts des grands modèles de langage continuent d'exploser, l'urgence de trouver des alternatives économiquement viables devient de plus en plus évidente. L'entraînement de ces modèles engendre des dépenses considérables, en particulier pour les GPU comme le Nvidia H100, dont le coût peut dépasser 30 000 dollars chacun. « Il y a une liste d'attente pour ces GPU, certains capital-risqueurs les utilisant même pour attirer des startups en quête de financement », a noté Muddu Sudhakar, PDG d'Aisera.

Même en acquérant des GPU, une génération de revenus significative est essentielle pour compenser leurs coûts élevés, a souligné Sudhakar. Il a fait référence à un récent blog de la société de capital-risque Sequoia, mettant en avant un écart de monétisation significatif qui pourrait freiner la croissance du marché de l'IA générative. « Une fois le GPU sécurisé, les entreprises doivent relever le défi de recruter des data scientists, dont les packages de rémunération peuvent être substantiels », a-t-il expliqué. « De plus, l’opérationnalisation des LLMs est coûteuse en raison des demandes continues de traitement des interactions, de gestion et de mise à jour des modèles, et de traitement de diverses questions de sécurité. »

En regardant vers l'avenir, Masood envisage des LLMs optimisés atteignant des niveaux de performance similaires à leurs homologues plus grands, mais à une fraction du coût. La communauté open-source s'attaque déjà à des défis pratiques avec des innovations comme LongLoRA, qui prolonge considérablement les fenêtres de contexte. « Si les tendances actuelles sont un indicateur, nous pourrions bientôt assister à une synthèse de modèles open-source et de LLMs plus petits, formant la base de l'écosystème de modélisation linguistique de nouvelle génération », a-t-il conclu.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles