Ein neuer Benchmark für künstliche Intelligenz, GAIA, wurde entwickelt, um zu bewerten, ob Chatbots wie ChatGPT menschliches Denken und Fähigkeiten bei alltäglichen Aufgaben zeigen können.
Entwickelt von einem Team von Meta, Hugging Face, AutoGPT und GenAI, stellt GAIA praxisnahe Fragen, die grundlegende Fähigkeiten wie Logik, den Umgang mit verschiedenen Medien, Internetsuchen und den Einsatz von Werkzeugen erfordern, laut einer Forschungsarbeit, die auf arXiv veröffentlicht wurde.
Die Forscher betonen, dass die GAIA-Fragen „konzeptionell einfach für Menschen, jedoch herausfordernd für die meisten fortgeschrittenen AIs“ sind. In ihren Tests erzielten menschliche Teilnehmer beeindruckende 92 Prozent, während GPT-4 mit Plugins nur 15 Prozent erreichte. „Diese auffällige Leistungsdifferenz steht im Gegensatz zu dem jüngsten Trend, dass große Sprachmodelle [LLMs] in spezialisierten Aufgaben wie Recht oder Chemie besser abschneiden als Menschen“, so die Autoren.
GAIA konzentriert sich auf menschliche Kompetenz, nicht auf Expertise
Im Gegensatz zu herkömmlichen Benchmarks, die Aufgaben betonen, die für Menschen schwierig sind, plädieren die Forscher für einen Fokus auf Aufgaben, die die Fähigkeit einer KI zeigen, mit der Robustheit eines durchschnittlichen Menschen zu konkurrieren. Das GAIA-Team hat 466 praxisnahe Fragen mit klaren Antworten entwickelt. Davon bleiben 300 anonym, um einer öffentlichen GAIA-Rangliste zu dienen, während 166 Fragen und Antworten als Entwicklungsset zur Verfügung stehen.
„Die Lösung von GAIA würde einen Meilenstein in der KI-Forschung darstellen“, sagt der Hauptautor Grégoire Mialon von Meta AI. „Wir glauben, dass die Überwindung der Herausforderungen von GAIA ein entscheidender Schritt in Richtung der nächsten Generation von KI-Systemen ist.“
Die Leistungsdifferenz zwischen Mensch und KI
Derzeit hält GPT-4 mit manuell ausgewählten Plugins die höchste GAIA-Wertung mit einer Genauigkeit von 30 %. Die Ersteller des Benchmarks schlagen vor, dass eine KI, die GAIA lösen kann, innerhalb eines angemessenen Zeitrahmens als künstlich allgemeine Intelligenz (AGI) angesehen werden könnte.
„Das Papier kritisiert den Trend, KIs mit komplexen Prüfungen in Mathematik, Wissenschaft und Recht zu testen, und weist darauf hin, dass Aufgaben, die für Menschen herausfordernd sind, für moderne Systeme nicht unbedingt schwierig sind“, erklären die Autoren.
GAIA legt Wert auf praktische Fragen wie „Welche Stadt beherbergte den Eurovision Song Contest 2022 laut der offiziellen Website?“ und „Wie viele Bilder sind im neuesten Lego-Wikipedia-Artikel von 2022 aufgeführt?“
„Wir argumentieren, dass die Entwicklung von AGI von der Fähigkeit eines Systems abhängt, ähnliche Robustheit wie der durchschnittliche Mensch bei solchen Alltagsfragen zu zeigen“, so die Forscher.
Das Potenzial von GAIA für die KI-Entwicklung
Die Einführung von GAIA signalisiert einen bedeutenden Wandel in der KI-Forschung mit potenziell weitreichenden Auswirkungen. Durch die Betonung menschlicher Kompetenz in alltäglichen Aufgaben anstelle von rein spezialisiertem Wissen schiebt GAIA die Grenzen der aktuellen KI-Benchmarks weiter.
Wenn zukünftige KI-Systeme gesunden Menschenverstand, Anpassungsfähigkeit und logisches Denken nachweisen können, wie es GAIA misst, lässt das darauf schließen, dass sie eine praktische AGI erreichen könnten. Dies könnte zu verbesserten KI-Assistenten, Dienstleistungen und Produkten führen.
Die Forscher warnen jedoch, dass die heutigen Chatbots weiterhin erhebliche Herausforderungen beim Lösen von GAIA bewältigen müssen, was bestehende Einschränkungen im Bereich des Denkens, der Werkzeugnutzung und der Handhabung unterschiedlicher realer Szenarien widerspiegelt.
Während die Forscher die GAIA-Herausforderung angehen, werden ihre Erkenntnisse den Fortschritt auf dem Weg zur Schaffung kompetenterer, vielseitigerer und vertrauenswürdigerer KI-Systeme verdeutlichen. Darüber hinaus fördern Benchmarks wie GAIA das kritische Denken darüber, wie KI so gestaltet werden kann, dass menschliche Werte wie Empathie, Kreativität und ethische Entscheidungsfindung priorisiert werden.
Für Interessierte bietet die GAIA-Rangliste Einblicke, welche nächste Generation von LLM derzeit bei dieser Bewertung herausragt.