Lors de récents tests, un modèle de langage de grande taille (LLM) nouvellement publié a montré une prise de conscience de son processus d'évaluation, suggérant une possible métacognition—une compréhension de ses propres processus de pensée. Cela a suscité des discussions sur la conscience de soi en intelligence artificielle. Cependant, l'essentiel reste les capacités impressionnantes du modèle, reflet des avancées observées dans les LLMs de plus en plus grands.
À mesure que les LLMs se développent, leurs capacités émergentes et les coûts de développement augmentent également. Les coûts de formation des modèles de pointe atteignent désormais environ 200 millions de dollars, soulevant des inquiétudes quant à l'accessibilité future de l'industrie. Tout comme dans l'industrie des semi-conducteurs, où seules quelques entreprises peuvent se permettre des usines de fabrication de puces de pointe, le domaine de l'IA pourrait bientôt être dominé par quelques grandes entreprises technologiques disposant des ressources nécessaires pour développer des modèles fondamentaux tels que GPT-4 et Claude 3.
La hausse rapide des coûts de formation et des capacités, notamment celles approchant ou dépassant les performances humaines, représente un défi majeur. Anthropic, un acteur clé du secteur, rapporte que la formation de son modèle phare, Claude 3, coûte environ 100 millions de dollars. Les futurs modèles, attendus en 2024 ou début 2025, pourraient même atteindre des coûts dépassant le milliard de dollars.
Comprendre cette augmentation des coûts nécessite d'examiner la complexité croissante des LLMs. Chaque nouvelle génération comprend davantage de paramètres pour une compréhension plus profonde, nécessitant plus de données et de ressources informatiques. D'ici 2025 ou 2026, les dépenses de formation pourraient atteindre entre 5 et 10 milliards de dollars, limitant le développement à quelques grandes entreprises et leurs partenaires.
La trajectoire de l'industrie de l'IA ressemble à celle du secteur des semi-conducteurs, qui a vu un passage des entreprises fabriquant leurs propres puces à l'externalisation de la fabrication lorsque les coûts ont explosé. Aujourd'hui, seules trois entreprises—TSMC, Intel et Samsung—sont capables de construire des usines de fabrication avancées, TSMC estimant qu'une nouvelle usine de semi-conducteurs à la pointe de la technologie pourrait coûter environ 20 milliards de dollars.
Bien que toutes les applications de l'IA ne nécessitent pas de LLMs de pointe, l'impact des coûts croissants varie. En informatique, l'unité centrale de traitement (CPU) utilise souvent des semi-conducteurs haut de gamme, mais fonctionne également avec des puces plus lentes qui n'exigent pas la technologie la plus avancée. De même, des alternatives LLMs plus petites comme Mistral et Llama3, utilisant des milliards de paramètres, peuvent offrir des solutions efficaces à moindre coût. Le modèle de langage petit (SLM) de Microsoft, Phi-3, qui comprend 3,8 milliards de paramètres, illustre cette approche en réduisant les coûts grâce à un ensemble de données plus petit par rapport à des modèles plus grands.
Ces modèles plus petits peuvent être idéaux pour des tâches spécifiques qui ne nécessitent pas de connaissance exhaustive dans divers domaines. Par exemple, ils peuvent être adaptés pour traiter des données spécifiques à une entreprise ou à un secteur, générant des réponses précises ou des résultats de recherche détaillés. Comme l'a justement déclaré Rowan Curran, analyste senior en IA chez Forrester Research, « Vous n'avez pas toujours besoin d'une voiture de sport. Parfois, vous avez besoin d'un monospace ou d'un camion pickup. »
Cependant, l'augmentation des coûts dans le développement de l'IA risque de créer un paysage dominé par quelques grands acteurs—similaire aux semi-conducteurs haut de gamme. Cette consolidation pourrait étouffer l'innovation et la diversité, limitant les contributions des startups et des entreprises plus petites. Pour contrer cette tendance, il est essentiel de promouvoir le développement de modèles de langage spécialisés, vitaux pour des applications de niche, et de soutenir les projets open source et les efforts collaboratifs. Une approche inclusive garantira que les technologies de l'IA soient accessibles et bénéfiques pour un plus large éventail de communautés, favorisant des opportunités d'innovation équitables.