Développement de solutions avec des modèles d'IA générative
Nous avons désormais plus d'un an d'exploration des modèles fondamentaux d'IA générative. Initialement concentrés sur les grands modèles de langage (LLMs), nous assistons maintenant à l'émergence de modèles multimodaux capables de comprendre et de générer des images et des vidéos, rendant ainsi le terme "modèle fondamental" (FM) plus approprié.
À mesure que le domaine évolue, nous identifions des schémas pour introduire efficacement ces solutions en production et créer un impact significatif en adaptant l'information à des besoins variés. De nombreuses opportunités de transformation s'annoncent, promettant d'améliorer la complexité et la valeur extraites des LLMs, bien que ces avancées nécessiteront une gestion rigoureuse des coûts.
Compréhension des modèles fondamentaux
Pour tirer parti des FMs de manière efficace, il est essentiel de comprendre leur fonctionnement. Ces modèles transforment des mots, des images, des chiffres et des sons en tokens, prédisant le "next-token" le plus pertinent pour engager les utilisateurs. Les retours d'expérience de l'année passée ont affiné les modèles clés développés par Anthropic, OpenAI, Mixtral et Meta, les alignant étroitement sur les attentes des utilisateurs.
La reconnaissance de l'importance du formatage des tokens a permis d'améliorer les performances—YAML surpassant généralement JSON. La communauté a développé des techniques de "prompt-engineering" pour améliorer les réponses des modèles. Par exemple, le prompting par peu d'exemples fournit des exemples pour guider la sortie du modèle, tandis que les prompts de chaîne de pensée conduisent à des réponses plus approfondies pour des requêtes complexes. De nombreux utilisateurs actifs des services de chat AI générative ont probablement remarqué ces améliorations.
Progrès des capacités des LLM
L'élargissement de la capacité de traitement de l'information des LLM est fondamental pour leur progression. Les modèles à la pointe de la technologie peuvent désormais gérer jusqu'à 1 million de tokens—l'équivalent d'un manuel universitaire complet—permettant aux utilisateurs de contrôler la pertinence contextuelle comme jamais auparavant.
Par exemple, en utilisant Claude d'Anthropic, j'ai assisté un médecin à naviguer dans un complexe document d'orientation de 700 pages, atteignant un taux de précision de 85 % sur les examens d'entrée associés. De plus, les technologies qui récupèrent l'information en fonction des concepts plutôt que des mots-clés enrichissent encore la base de connaissances.
Les nouveaux modèles d'embedding, tels que titan-v2 et cohere-embed, permettent la récupération de textes connexes en convertissant diverses sources en vecteurs dérivés de vastes ensembles de données. Des innovations comme l'intégration de requêtes vectorielles dans les systèmes de base de données et des bases de données vectorielles spécialisées comme Turbopuffer permettent une scalabilité massive avec une perte de performance minimale.
Malgré ces avancées, l'évolutivité des solutions demeure un défi, nécessitant une collaboration entre diverses disciplines pour optimiser la sécurité, la scalabilité, la latence, l'efficacité des coûts et la qualité des réponses dans les applications LLM.
Innover avec Gen 2.0 et les systèmes d'agents
Bien que les récents progrès aient renforcé la performance des modèles et la viabilité des applications, nous sommes à l'aube d'une nouvelle évolution : l'intégration de multiples fonctionnalités d'IA générative.
La première phase consiste à créer des chaînes d'actions manuelles—comme le système ARIA de BrainBox.ai, qui interprète des images de pannes d'équipement, accède à des bases de connaissances pertinentes et interroge des flux de données IoT pour suggérer des solutions. Cependant, ces systèmes rencontrent des limitations logiques, nécessitant des définitions codées en dur par les développeurs ou étant restreints à des chemins décisionnels simples.
La phase suivante, Gen AI 2.0, envisage des systèmes agiles basés sur des agents utilisant des modèles multimodaux, guidés par un moteur de raisonnement (généralement un LLM). Ces agents décomposeront les problèmes en étapes gérables et sélectionneront les outils pilotés par l'IA appropriés pour l'exécution, adaptant leur approche en fonction des résultats à chaque étape.
Cette approche modulaire renforce la flexibilité, permettant aux systèmes de s'attaquer à des tâches complexes. Par exemple, Devin.ai de Cognition Labs pourrait automatiser des tâches de programmation de bout en bout, réduisant considérablement l'intervention humaine tout en accélérant les processus, tandis que Q for Developers d'Amazon facilite les mises à jour automatiques de Java.
Dans le domaine de la santé, un système d'agent médical pourrait synthétiser les données des DSE, les imageries, les informations génétiques et la littérature clinique, formulant des recommandations de traitement complètes. De plus, plusieurs agents spécialisés pourraient collaborer pour générer des profils de patients détaillés et exécuter de manière autonome des processus de connaissance en plusieurs étapes, réduisant ainsi le besoin de supervision humaine.
Néanmoins, ces systèmes avancés peuvent entraîner des coûts élevés en raison des appels API LLM extensifs générant de gros volumes de tokens. Par conséquent, des avancées parallèles dans l'optimisation des LLM—concernant le matériel (par exemple, NVIDIA Blackwell), les frameworks (Mojo), le cloud (AWS Spot Instances) et les configurations des modèles (taille des paramètres, quantification)—sont essentielles pour gérer efficacement les dépenses.
Conclusion
À mesure que les organisations évoluent dans leur déploiement des LLM, l'accent se déplacera vers l'atteinte de résultats de haute qualité rapidement et efficacement. Étant donné le rythme rapide du changement, il est crucial de s'associer à une équipe expérimentée dans l'optimisation des solutions d'IA générative pour réussir.