Meta AI startet OpenEQA zur Verbesserung der „verkörperten Intelligenz“ in künstlichen Agenten.

Home KI-Nachrichten Meta AI startet OpenEQA zur Verbesserung der „verkörperten Intelligenz“ in künstlichen Agenten.

Meta AI-Forscher haben OpenEQA vorgestellt, ein innovatives Open-Source-Benchmark-Datenset, das entwickelt wurde, um die Fähigkeiten eines künstlichen Intelligenzsystems im Bereich des "embodied question answering" zu bewerten. Diese Fähigkeit ermöglicht es KI, die reale Welt zu verstehen und präzise auf natürliche Sprachfragen zu verschiedenen Umgebungen zu antworten.

Das OpenEQA-Datenset gilt als zentrale Ressource für das aufstrebende Feld der "embodied AI" und umfasst über 1.600 Fragen zu mehr als 180 realen Umgebungen, darunter Wohnungen und Büros. Die Fragen sind in sieben verschiedene Typen kategorisiert, um die Fähigkeiten einer KI in der Objekt- und Attributserkennung, räumlichem Denken, funktionalem Denken und Alltagswissen rigoros zu testen.

"Embodied Question Answering (EQA) ist sowohl eine sinnvolle Anwendung als auch ein Rahmen zur Bewertung des Weltverständnisses eines KI-Agenten", stellten die Forscher in ihrer Veröffentlichung fest. "EQA bedeutet, eine Umgebung so gut zu verstehen, dass man Fragen dazu in natürlicher Sprache beantworten kann."

Bemerkenswert ist, dass selbst fortschrittliche Modelle wie GPT-4V Schwierigkeiten hatten, die menschliche Leistung im OpenEQA zu erreichen, was auf den hohen Anspruch des Benchmarks hinweist, die Fähigkeit einer KI zu bewerten, reale Fragen zu erfassen und zu beantworten.

Vereinigung verschiedener KI-Bereiche

Die OpenEQA-Initiative verbindet mehrere fortschrittliche Bereiche der künstlichen Intelligenz, darunter Computer Vision, natürliche Sprachverarbeitung, Wissensdarstellung und Robotik. Das übergeordnete Ziel besteht darin, künstliche Agenten zu schaffen, die ihre Umgebung wahrnehmen und mit ihr interagieren, natürliche Gespräche mit Menschen führen und Wissen nutzen können, um das tägliche Leben zu verbessern.

Forscher sehen zwei Hauptanwendungen für diese "embodied intelligence". Erstens könnten KI-Assistenten, die in Augmented-Reality-Brillen oder -Headsets integriert sind, Video- und Sensordaten nutzen, um den Nutzern eine Art fotografisches Gedächtnis zu bieten, das Fragen wie „Wo habe ich meine Schlüssel gelassen?“ beantwortet. Zweitens könnten mobile Roboter autonom durch Umgebungen navigieren, um Informationen zu sammeln, beispielsweise durch die Fragen „Habe ich noch Kaffee?“.

Festlegung eines strengen Bewertungsstandards

Bei der Entwicklung des OpenEQA-Datensets sammelten die Forscher von Meta Videomaterial und 3D-Scans von realen Umgebungen. Sie luden dann Personen ein, Fragen zu formulieren, die sie einem KI-Assistenten mit Zugriff auf diese visuellen Daten stellen würden.

Das Datenset umfasst 1.636 Fragen, die ein breites Spektrum an Wahrnehmungs- und Denkfähigkeiten bewerten. Zum Beispiel erfordert die Beantwortung der Frage "Wie viele Stühle stehen um den Esstisch?" dass die KI Objekte identifiziert, den räumlichen Begriff "um" versteht und die relevanten Gegenstände zählt. Andere Fragen erfordern ein grundlegendes Verständnis von Objektverwendungen und -attributen.

Um die Genauigkeit zu verbessern, enthält jede Frage mehrere menschlich generierte Antworten, um zu berücksichtigen, dass verschiedene Antworten möglich sind. Zur Bewertung der KI-Leistung verwendeten die Forscher große Sprachmodelle, um die Ähnlichkeit zwischen KI-generierten Antworten und menschlichen Antworten automatisch zu messen.

Snowflake Copilot: KI-Assistent, unterstützt von Mistral Large, jetzt für die öffentliche Vorschau verfügbar

Buildbox 4 präsentiert eine No-Code KI-Game-Entwicklungsumgebung für mühelose Spielkreation.

Most people like

LogoGalleria : AI Logo Maker with Precision Free Online

64.6K

Entfalten Sie das Potenzial Ihrer Marke mit unserem KI-Logo-Generator, der Ihnen hilft, beeindruckende und professionelle Logos zu erstellen, die auffallen. Mit modernster Technologie und benutzerfreundlichen Werkzeugen können Sie mühelos ein einzigartiges Logo entwerfen, das das Wesen Ihres Unternehmens perfekt einfängt. Egal, ob Sie ein Startup gründen oder Ihre bestehende Marke auffrischen, unsere KI-gesteuerte Plattform garantiert ein reibungsloses Logo-Erstellungserlebnis, das speziell auf Sie zugeschnitten ist.

KI-Logo-Generator AI Photo & Image Generator

Lindo

Lindo ist ein KI-gesteuerter Website-Builder, der speziell für Unternehmen entwickelt wurde und den Prozess der Webseiten-Erstellung vereinfacht, ohne dass Programmierkenntnisse erforderlich sind.

Website-Builder AI App Builder

Mercor

146.8K

Präsentation unserer fortschrittlichen KI-Plattform, die speziell für die nahtlose Beschaffung, Überprüfung und Bezahlung von Mitarbeitern entwickelt wurde. Optimieren Sie Ihren Einstellungsprozess mit modernster Technologie, die die Rekrutierung vereinfacht und Ihnen hilft, die richtigen Talente effizient und mühelos zu finden. Mit unseren innovativen Lösungen war das Management von Mitarbeiterzahlungen noch nie so einfach, sodass Ihr Unternehmen in einem wettbewerbsintensiven Umfeld florieren kann.

KI-Einstellungsplattform AI Interview Assistant

1PX.AI The world's most advanced AI photo generator

5.5K

In der heutigen digitalen Welt war es noch nie einfacher, einzigartige und personalisierte Avatare oder Fototransformationen zu erstellen. Mit modernster KI-Technologie ermöglicht unser KI-Avatar- und Fotogenerator den Nutzern, mühelos auffällige digitale Darstellungen zu gestalten. Egal, ob Sie Ihre Online-Präsenz verbessern oder Ihre Kreativität ausdrücken möchten, dieses innovative Tool erleichtert die Erstellung hochwertiger Bilder, die auf Ihre Vorgaben zugeschnitten sind. Verwandeln Sie Ihre Ideen in visuelle Werke und erleben Sie die Kraft der KI in der Avatar-Erstellung noch heute!

AI-Avatar-Generator AI Avatar Generator

Find AI tools in YBX