L'essor de l'ordinateur « autonome » : Révolutionner la technologie et l'automatisation

Des nuits tardives avec un nouveau-né peuvent susciter des innovations remarquables. C'est ce qui est arrivé à Josh Bickett, développeur chez OthersideAI, qui a conçu un « cadre informatique autonome » en veillant sur sa fille dans le silence de la nuit.

Bickett a partagé : « J’ai passé du temps avec ma fille de quatre semaines et appris de nouvelles leçons sur la paternité. Pendant ces moments, j’ai été inspiré par diverses démonstrations de la vision de GPT-4 et j'ai réalisé que notre projet actuel pourrait tirer parti de cette technologie. »

Avec sa fille blottie dans un bras, Bickett a rapidement esquissé les fondations du cadre sur son ordinateur. « J'ai trouvé une première implémentation. Ce n'est pas encore parfait pour cliquer avec précision, mais nous nous concentrons sur le défi principal : permettre à un ordinateur de fonctionner de manière autonome. »

Lorsque Matt Shumer, co-fondateur et PDG d'OthersideAI, a évalué le cadre, il a reconnu son immense potentiel. « C'est un jalon significatif vers la technologie informatique autonome, semblable aux voitures autonomes. Nous avons les capteurs et les outils nécessaires ; il nous faut maintenant construire l'intelligence. »

Une Interaction Informatique Alimentée par l'IA

Bickett explique que le cadre permet à l'IA de contrôler la souris et le clavier, fonctionnant de manière autonome. « C'est semblable à un agent comme autoGPT, mais basé sur la vision. L'IA prend une capture d'écran de l'ordinateur et décide où cliquer et quelles touches presser, tout comme un humain. »

Shumer souligne que cette approche représente une avancée notable par rapport aux modèles précédents qui reposaient uniquement sur des API. « De nombreuses tâches informatiques ne peuvent pas être exécutées par API, qui est la méthode courante pour créer des agents. La véritable autonomie nécessite que le système interagisse comme un humain, car les ordinateurs sont conçus pour un usage humain. »

En utilisant des captures d'écran comme entrées, le cadre génère des clics de souris et des commandes clavier, imitant l'interaction humaine. Cependant, Bickett et Shumer reconnaissent que la véritable puissance réside dans les modèles avancés de vision par ordinateur et de raisonnement intégrés au cadre. « C'est modulaire : brancher un meilleur modèle, et cela s'améliore », déclare Bickett.

Visionnant l'Avenir de l'Informatique avec des Agents d'IA

Interrogé sur les implications futures, Shumer a dévoilé une vision enthousiasmante : « Une fois que cette technologie sera mature, elle deviendra votre interface principale avec le monde numérique. » Avec le cadre informatique autonome en place, des modèles avancés d'IA pourraient gérer toutes les interactions informatiques via des commandes conversationnelles.

Shumer anticipe l'émergence de modèles d'agents d'IA spécialisés adaptés à des tâches distinctes. Certains pourraient privilégier la rapidité pour des activités simples, tandis que d'autres se concentreraient sur un raisonnement complexe, avec des variations pour les applications professionnelles et grand public. Le but, a-t-il noté, est de créer des agents permettant aux utilisateurs d'éliminer les tâches fastidieuses, rendant l'informatique accessible même à ceux ayant des compétences techniques limitées.

Exploiter l'Open Source pour un Développement Accéléré

Bickett est convaincu que le caractère open source du cadre accélérera l'innovation, permettant aux développeurs du monde entier d'explorer de nouvelles applications. Shumer a acquiescé, notant que « l'industrie offre de nombreuses opportunités pour des fournisseurs de modèles variés et des applications, ouvrant la voie à la croissance de grandes entreprises. »

Bien que les deux entrepreneurs voient d'immenses opportunités, la réalisation de la vision d'agents informatiques intelligents nécessitera des ressources significatives et une innovation continue. Pour faciliter cela, la société de recherche en IA Imbue (anciennement Generally Intelligent) a sécurisé un partenariat de 150 millions de dollars avec Dell pour créer une plateforme robuste de formation en IA.

Cette initiative exploitera un impressionnant cluster d'environ 10 000 GPU Nvidia H100, permettant à Imbue de développer des modèles de base spécifiquement optimisés pour les capacités de raisonnement. Kanjun Qiu, co-fondateur et PDG d'Imbue, a souligné l'importance du raisonnement : « C'est le principal obstacle à la création d'agents très efficaces. »

Imbue se concentre sur le développement d'un raisonnement solide, essentiel pour que les agents d'IA naviguent dans l'incertitude, adaptent leurs stratégies, assimilent de nouvelles informations et prennent des décisions complexes. Ces capacités sont cruciales pour tout système fonctionnant de manière autonome dans des environnements dynamiques.

L'entreprise emploie une méthodologie exhaustive impliquant un entraînement de modèle optimisé, le prototypage d'agents, le développement d'outils et la recherche théorique, le tout visant à faire progresser l'apprentissage profond vers un raisonnement de niveau humain et une intelligence générale artificielle potentielle.

Bien que Bickett et Shumer reconnaissent que le cadre informatique autonome n'est qu'une première étape, ils envisagent une ère transformative où des agents d'IA avancés remplacent fondamentalement les interfaces informatiques conventionnelles. Des inspirations nocturnes pourraient mener à des percées révolutionnaires, mais des efforts soutenus seront essentiels pour concrétiser le rêve d'ordinateurs qui fonctionnent intuitivement pour tous, partout, à l'aide de commandes simples en langage naturel.

Most people like

Find AI tools in YBX