Nächte mit einem Neugeborenen können bemerkenswerte Innovationen hervorbringen. Dies erlebte der OthersideAI-Entwickler Josh Bickett, der während der nächtlichen Pflege seiner Tochter ein innovatives "selbstbetriebendes Computerframework" entwarf.
Bickett teilte mit: „Ich habe die Zeit mit meiner vier Wochen alten Tochter genossen und neue Lektionen in der Vaterschaft gelernt. In diesen Momenten wurde ich von verschiedenen Demos der GPT-4-Visionsfähigkeiten inspiriert und erkannte, dass unser aktuelles Projekt diese Technologie nutzen könnte.“ Mit seiner Tochter in einer Arm hielt, skizzierte Bickett rasch die Grundlage des Frameworks auf seinem Computer. „Ich fand eine erste Implementierung. Sie ist nicht perfekt im genauen Klicken, aber wir konzentrieren uns auf die zentrale Herausforderung: einen Computer selbstständig agieren zu lassen.“
Einführung in die KI-gesteuerte Computerinteraktion
Bickett erläuterte, dass das Framework es der KI ermögliche, die Maus und die Tastatur autonom zu steuern. „Es ähnelt einem Agenten wie autoGPT, ist jedoch visionsbasiert. Die KI macht einen Screenshot des Computers und entscheidet, wo geklickt und welche Tasten gedrückt werden sollen, genau wie ein Mensch.“
Shumer betonte, dass dieser Ansatz einen bedeutenden Fortschritt gegenüber früheren Modellen darstellt, die ausschließlich auf APIs angewiesen sind. „Viele Computeraufgaben können nicht über APIs ausgeführt werden, die gängige Methode zur Erstellung von Agenten. Echte Autonomie erfordert, dass das System interagiert, wie es Menschen tun, da Computer für die Nutzung durch Menschen entwickelt wurden.“
Durch die Verwendung von Screenshots als Eingaben generiert das Framework Maus Klicks und Tastaturbefehle, die menschliche Interaktion nachahmen. Sowohl Bickett als auch Shumer erkennen jedoch an, dass die wahre Kraft in den ausgeklügelten Modellen für Computer Vision und reasoning liegt, die in das Framework integriert werden können. „Es ist modular: ein besseres Modell anschließen und es verbessert sich“, erklärte Bickett.
Zukunftsvision für das Computing mit KI-Agenten
Auf die Frage nach den zukünftigen Implikationen skizzierte Shumer eine spannende Vision: „Sobald diese Technologie ausgereift ist, wird sie zu Ihrer primären Schnittstelle zur digitalen Welt.“ Mit dem bestehenden selbstbetriebenden Computerframework könnten fortschrittliche KI-Modelle nahtlos alle Computerinteraktionen über sprachliche Befehle verwalten.
Shumer erwartet die Entstehung spezialisierter KI-Agentenmodelle, die auf unterschiedliche Aufgaben zugeschnitten sind. Einige könnten Geschwindigkeit für einfachere Aktivitäten priorisieren, während andere sich auf komplexe Überlegungen konzentrieren, mit Variationen für Unternehmens- und Verbraucheranwendungen. Ziel ist es, Agenten zu schaffen, die es den Nutzern ermöglichen, lästige Aufgaben zu eliminieren und das Computing für diejenigen zugänglich zu machen, die über begrenzte technische Fähigkeiten verfügen.
Nutzung von Open Source für beschleunigte Entwicklungen
Bickett ist überzeugt, dass die Open-Source-Natur des Frameworks die Innovation beschleunigen wird, indem sie Entwicklern weltweit die Erforschung neuer Anwendungen ermöglicht. Shumer stimmte zu und bemerkte, dass „die Branche reichlich Möglichkeiten für verschiedene Modellanbieter und Anwendungen hat, was das Wachstum bedeutender Unternehmen fördert.“
Während beide Unternehmer enorme Chancen sehen, erfordert die Verwirklichung der Vision intelligenter Computeragenten beträchtliche Ressourcen und ständige Innovation. Um dies zu erleichtern, hat die KI-Forschungsfirma Imbue (ehemals Generally Intelligent) eine Partnerschaft über 150 Millionen Dollar mit Dell gesichert, um eine robuste KI-Trainingsplattform zu schaffen.
Diese Initiative nutzt einen beeindruckenden Cluster von rund 10.000 Nvidia H100 GPUs, der es Imbue ermöglicht, Grundmodelle zu entwickeln, die speziell für reasoning-Fähigkeiten optimiert sind. Kanjun Qiu, Mitgründer und CEO von Imbue, betonte die Bedeutung des Reasonings: „Es ist die zentrale Barrieren für die Schaffung hoch effektiver Agenten.“
Imbue konzentriert sich auf die Förderung robusten Reasonings, das für KI-Agenten essentiel ist, um Unsicherheiten zu navigieren, Strategien anzupassen, neue Informationen zu assimilieren und komplexe Entscheidungen zu treffen. Diese Fähigkeiten sind entscheidend für jedes System, das autonom in dynamischen Umgebungen agiert.
Das Unternehmen verwendet eine umfassende Methodik, die optimiertes Modelltraining, Prototyping von Agenten, Toolentwicklung und theoretische Forschung umfasst, um tiefes Lernen in Richtung menschlicher reasoning und potenzieller künstlicher allgemeiner Intelligenz voranzutreiben.
Obwohl Bickett und Shumer anerkennen, dass das selbstbetriebende Computerframework nur ein erster Schritt ist, träumen sie von einer transformierenden Ära, in der fortgeschrittene KI-Agenten herkömmliche Computing-Schnittstellen grundlegend ersetzen. Inspirationen in der Nacht könnten zu revolutionären Durchbrüchen führen, aber engagierte Anstrengungen sind unerlässlich, um den Traum von Computern zu verwirklichen, die intuitiv für alle, überall, mit einfachen Sprachbefehlen operieren.