Die Suche nach künstlicher allgemeiner Intelligenz (AGI) – KI-Systemen mit menschlichen Fähigkeiten in verschiedenen Aufgabenbereichen – entfacht leidenschaftliche Debatten unter Wissenschaftlern. Die Meinungen sind stark unterschiedlich: Einige Experten glauben, dass AGI noch in weiter Ferne ist, während andere ihren Durchbruch innerhalb eines Jahrzehnts vorhersagen. Besonders hervorzuheben ist die Meinung, dass die „Funken der AGI“ bereits in aktuellen großen Sprachmodellen (LLMs) sichtbar sind.
Um diesen Diskurs zu klären, hat ein Team von Google DeepMind unter der Leitung von Chief AGI Scientist Shane Legg einen neuen Rahmen vorgestellt, der darauf abzielt, die Fähigkeiten und Verhaltensweisen von AGI-Systemen und deren Vorläufern zu klassifizieren.
Definition von AGI
Eine zentrale Herausforderung bei der Entwicklung von AGI besteht darin, eine klare Definition zu etablieren. Die DeepMind-Forscher bewerten neun Definitionen, darunter den Turing-Test, den Kaffeetest, Bewertungen des Bewusstseins, wirtschaftliche Kennzahlen und aufgabenbezogene Benchmarks. Sie betonen die Einschränkungen jeder Definition, die das Wesen der AGI nicht vollständig erfassen kann.
So können LLMs zwar den Turing-Test bestehen, jedoch qualifiziert ihre Fähigkeit, überzeugende Texte zu generieren, sie nicht als AGI, was die aktuellen Einschränkungen dieser Modelle verdeutlicht. Zudem bleibt die Zuschreibung von Bewusstsein an Maschinen eine unklare Angelegenheit. Das Scheitern spezifischer Tests – wie dem Zubereiten von Kaffee in einer unbekannten Küche – weist auf einen Nicht-AGI-Status hin, während das Bestehen von Aufgaben allein dies nicht bestätigt.
Um ein tieferes Verständnis von AGI zu schaffen, schlagen die Forscher sechs Kriterien zur Bewertung künstlicher Intelligenz vor:
1. Fokus auf Fähigkeiten: AGI-Maßstäbe sollten Fähigkeiten über schwer fassbare Eigenschaften wie menschliches Verständnis oder Bewusstsein priorisieren.
2. Generalisierung und Leistung: Bewertungen müssen sowohl die Bandbreite der Aufgaben als auch das Leistungsniveau einer KI berücksichtigen.
3. Kognitive Anforderungen: AGI sollte kognitive und metakognitive Aufgaben umfassen; eine physische Verkörperung ist nicht notwendig.
4. Aufgabenschlüssel: Die Fähigkeit, Aufgaben auf AGI-Niveau zu bewältigen, genügt, auch wenn das System momentan nicht einsetzbar ist. Eine Anforderung an die Einsatzbereitschaft würde nicht-technische Herausforderungen wie ethische und rechtliche Implikationen mit sich bringen.
5. Ökologische Validität: AGI-Kennzahlen sollten sich auf tatsächliche Aufgaben konzentrieren, die für die Gesellschaft von Wert sind.
6. Pfadmodell: AGI ist kein singulärer Endpunkt, sondern ein Kontinuum mit verschiedenen Intelligenzlevels.
Das Intelligenzspektrum
DeepMind hat eine Matrix erstellt, die „Leistung“ und „Generalisierung“ über fünf Stufen bewertet, von keiner KI bis hin zu übermenschlicher AGI. Die Leistung spiegelt wider, wie die Fähigkeiten einer KI im Vergleich zu menschlichen Fertigkeiten stehen, während die Generalisierung die Breite der Aufgaben misst, die eine KI effektiv bewältigen kann.
Diese Matrix unterscheidet zwischen spezialisierter und allgemeiner KI. Zum Beispiel sind übermenschliche spezialisierte KI-Systeme wie AlphaZero und AlphaFold in bestimmten Aufgaben hervorragend. Fortschrittliche Sprachmodelle wie ChatGPT, Bard und Llama 2 fallen in bestimmten Aufgaben wie dem Schreiben von Essays unter die Kategorie "Kompetent" (Level 2), während sie in Bereichen wie Mathematik und Logik weiterhin als "Entwickelnd" (Level 1) klassifiziert werden.
Die Forscher betonen, dass aktuelle fortschrittliche Sprachmodelle bis sie auf einem breiteren Spektrum von Aufgaben höhere Leistungen zeigen, als Level 1 Allgemeine KI („Entwickelnde AGI“) eingestuft werden.
Zudem warnen sie, dass theoretische Klassifikationen möglicherweise nicht mit der realen Leistungsfähigkeit übereinstimmen. Text-zu-Bild-Systeme können zwar hochwertige Bilder im Vergleich zu menschlichen Künstlern erzeugen, doch könnten sie aufgrund gelegentlicher Ungenauigkeiten trotzdem nicht den Status eines „Virtuosen“ erreichen.
DeepMind plädiert für einen AGI-Benchmark, der eine Vielzahl kognitiver und metakognitiver Aufgaben umfasst, darunter sprachliche Fähigkeiten, Denkfähigkeiten und Kreativität. Sie erkennen die Herausforderung an, jede von einer ausreichend allgemeinen Intelligenz denkbare Aufgabe zu definieren, und schlagen vor, dass der AGI-Benchmark ein dynamischer Rahmen ist, der sich an neue Aufgaben anpasst.
Autonomie und Risikobewertung
DeepMind führt eine Matrix zur Bewertung der Autonomie und der damit verbundenen Risiken in KI-Systemen ein. Diese reicht von Level 0, wo Menschen alle Aufgaben übernehmen, bis zu Level 5, das vollständige Autonomie anzeigt, und umfasst Stufen, in denen Menschen und KI Aufgaben teilen.
Die Risiken, die von KI-Systemen ausgehen, entwickeln sich mit zunehmender Autonomie weiter. Auf niedrigeren Ebenen können Risiken etwa in einem Verlust an Fähigkeiten bei den Arbeitenden und Störungen in Industrien bestehen. Höhere Autonomie-Level könnten ernsthafte Bedenken aufwerfen, wie gezielte Manipulation von Individuen durch personalisierte Inhalte und ethische Fehlanpassungen bei vollständig autonomen Agenten.
Obwohl der Rahmen von DeepMind möglicherweise Einschränkungen und Kritiker hat, bietet er eine bedeutende Orientierung für die Messung des Fortschritts bei der Entwicklung von KI-Systemen, die letztlich menschliche Fähigkeiten übertreffen könnten.