Pour tirer parti des grands modèles de langage (LLMs), les applications web s'appuient généralement sur des connexions aux serveurs cloud. Cependant, l'ancien ingénieur de Google, Jacob Lee, a introduit une méthode innovante pour exécuter l'IA localement, ce qui pourrait réduire considérablement les coûts et les préoccupations en matière de confidentialité liées aux solutions basées sur le cloud. Ancien contributeur à Google Photos, Lee participe désormais au développement du populaire cadre LangChain et partage ses idées dans un article de blog sur Ollama.
Dans son article, Lee explique comment les développeurs peuvent créer des applications web capables de converser directement avec des documents depuis l'appareil de l'utilisateur, éliminant ainsi le besoin de connexions cloud coûteuses. En utilisant un mélange d'outils open-source, il a conçu une application web permettant aux utilisateurs d'interagir avec des rapports ou des documents en langage naturel. Les utilisateurs intéressés peuvent facilement accéder à une démo en installant l'application de bureau Ollama, en exécutant quelques commandes pour la configuration locale, puis en engageant une conversation avec un chatbot à propos de tout document téléchargé.
Pour la démo, les utilisateurs auront besoin d'une instance Mistral fonctionnant localement via Ollama, et des instructions complètes sont fournies dans le blog de Lee.
Comment ça fonctionne
Le fonctionnement de l'implémentation de Lee repose sur un processus simplifié en cinq étapes :
1. Ingestion des données : Les utilisateurs chargent des documents, tels que des PDF, dans le système. Lee utilise LangChain pour segmenter ces documents en morceaux gérables et génère des embeddings vectoriels pour chaque morceau à l'aide de Transformers.js. Ces morceaux sont ensuite organisés dans la base de données Voy vector store.
2. Récupération : Lorsqu'un utilisateur pose une question, le système interroge le store vectoriel pour trouver les morceaux les plus pertinents par rapport à la demande.
3. Génération : La question et les morceaux identifiés sont envoyés à l'IA Ollama qui fonctionne localement, utilisant le modèle Mistral pour générer une réponse basée sur les informations récupérées.
4. Référencement : Pour les requêtes de suivi, le système reformule les questions avant de répéter les étapes de récupération et de génération.
5. Exposition de l'IA locale : L'outil Ollama permet d'accéder au modèle Mistral fonctionnant localement depuis l'application web, facilitant ainsi l'intégration de la fonctionnalité de génération.
En résumé, Lee a développé une application web capable de discuter de documents hors ligne, alimentée entièrement par un logiciel intelligent exécuté sur l'ordinateur personnel de l'utilisateur.
Avantages pour les entreprises et les développeurs
Cette approche locale présente des implications significatives pour les entreprises et les développeurs. En s'éloignant des solutions cloud pour des déploiements locaux, les organisations peuvent réduire leurs coûts opérationnels, surtout lors de la montée en échelle. De plus, cette méthode permet une personnalisation élevée, car les utilisateurs peuvent créer des modèles ajustés en utilisant des données internes propriétaires.
Le traitement local des données aborde également les problèmes de confidentialité, garantissant que les informations sensibles restent sur place, tout en atténuant les risques de violation. Lee anticipe que ces systèmes deviendront de plus en plus courants à mesure que les nouveaux modèles seront conçus pour être plus petits et plus efficaces, améliorant ainsi leur compatibilité avec les appareils locaux.
Pour faciliter un accès encore plus large, Lee envisage une API de navigateur permettant aux applications web de demander l'accès à un LLM fonctionnant localement, semblable à une extension Chrome. « Je suis extrêmement enthousiaste pour l'avenir des applications web alimentées par LLM et pour la manière dont des technologies comme Ollama et LangChain peuvent faciliter de nouvelles interactions utilisateur incroyables », a-t-il déclaré.
Le concept de Lee s'inscrit dans une tendance croissante du développement web axé sur l'IA. Des plateformes comme MetaGPT permettent aux utilisateurs de construire des applications à l'aide de commandes en langage naturel, tandis que des outils comme CodeWP.ai génèrent des HTML pour des sites web. De plus, des environnements de développement comme GitHub Copilot et Replit AI rationalisent les processus de codage, et des initiatives comme le Projet IDX de Google fournissent des ressources IA pour les développeurs.
En résumé, l'approche innovante de Jacob Lee pour l'intégration des LLM locaux ouvre la voie à des applications économiques et respectueuses de la vie privée, tout en transformant la manière dont les utilisateurs interagissent avec la technologie dans un paysage numérique de plus en plus dominé par des capacités IA avancées.