Meta AI-Forscher haben OpenEQA vorgestellt, ein innovatives Open-Source-Benchmark-Datenset, das entwickelt wurde, um die Fähigkeiten eines künstlichen Intelligenzsystems im Bereich des "embodied question answering" zu bewerten. Diese Fähigkeit ermöglicht es KI, die reale Welt zu verstehen und präzise auf natürliche Sprachfragen zu verschiedenen Umgebungen zu antworten.
Das OpenEQA-Datenset gilt als zentrale Ressource für das aufstrebende Feld der "embodied AI" und umfasst über 1.600 Fragen zu mehr als 180 realen Umgebungen, darunter Wohnungen und Büros. Die Fragen sind in sieben verschiedene Typen kategorisiert, um die Fähigkeiten einer KI in der Objekt- und Attributserkennung, räumlichem Denken, funktionalem Denken und Alltagswissen rigoros zu testen.
"Embodied Question Answering (EQA) ist sowohl eine sinnvolle Anwendung als auch ein Rahmen zur Bewertung des Weltverständnisses eines KI-Agenten", stellten die Forscher in ihrer Veröffentlichung fest. "EQA bedeutet, eine Umgebung so gut zu verstehen, dass man Fragen dazu in natürlicher Sprache beantworten kann."
Bemerkenswert ist, dass selbst fortschrittliche Modelle wie GPT-4V Schwierigkeiten hatten, die menschliche Leistung im OpenEQA zu erreichen, was auf den hohen Anspruch des Benchmarks hinweist, die Fähigkeit einer KI zu bewerten, reale Fragen zu erfassen und zu beantworten.
Vereinigung verschiedener KI-Bereiche
Die OpenEQA-Initiative verbindet mehrere fortschrittliche Bereiche der künstlichen Intelligenz, darunter Computer Vision, natürliche Sprachverarbeitung, Wissensdarstellung und Robotik. Das übergeordnete Ziel besteht darin, künstliche Agenten zu schaffen, die ihre Umgebung wahrnehmen und mit ihr interagieren, natürliche Gespräche mit Menschen führen und Wissen nutzen können, um das tägliche Leben zu verbessern.
Forscher sehen zwei Hauptanwendungen für diese "embodied intelligence". Erstens könnten KI-Assistenten, die in Augmented-Reality-Brillen oder -Headsets integriert sind, Video- und Sensordaten nutzen, um den Nutzern eine Art fotografisches Gedächtnis zu bieten, das Fragen wie „Wo habe ich meine Schlüssel gelassen?“ beantwortet. Zweitens könnten mobile Roboter autonom durch Umgebungen navigieren, um Informationen zu sammeln, beispielsweise durch die Fragen „Habe ich noch Kaffee?“.
Festlegung eines strengen Bewertungsstandards
Bei der Entwicklung des OpenEQA-Datensets sammelten die Forscher von Meta Videomaterial und 3D-Scans von realen Umgebungen. Sie luden dann Personen ein, Fragen zu formulieren, die sie einem KI-Assistenten mit Zugriff auf diese visuellen Daten stellen würden.
Das Datenset umfasst 1.636 Fragen, die ein breites Spektrum an Wahrnehmungs- und Denkfähigkeiten bewerten. Zum Beispiel erfordert die Beantwortung der Frage "Wie viele Stühle stehen um den Esstisch?" dass die KI Objekte identifiziert, den räumlichen Begriff "um" versteht und die relevanten Gegenstände zählt. Andere Fragen erfordern ein grundlegendes Verständnis von Objektverwendungen und -attributen.
Um die Genauigkeit zu verbessern, enthält jede Frage mehrere menschlich generierte Antworten, um zu berücksichtigen, dass verschiedene Antworten möglich sind. Zur Bewertung der KI-Leistung verwendeten die Forscher große Sprachmodelle, um die Ähnlichkeit zwischen KI-generierten Antworten und menschlichen Antworten automatisch zu messen.