Meta AI startet OpenEQA zur Verbesserung der „verkörperten Intelligenz“ in künstlichen Agenten.

Home KI-Nachrichten Meta AI startet OpenEQA zur Verbesserung der „verkörperten Intelligenz“ in künstlichen Agenten.

Meta AI-Forscher haben OpenEQA vorgestellt, ein innovatives Open-Source-Benchmark-Datenset, das entwickelt wurde, um die Fähigkeiten eines künstlichen Intelligenzsystems im Bereich des "embodied question answering" zu bewerten. Diese Fähigkeit ermöglicht es KI, die reale Welt zu verstehen und präzise auf natürliche Sprachfragen zu verschiedenen Umgebungen zu antworten.

Das OpenEQA-Datenset gilt als zentrale Ressource für das aufstrebende Feld der "embodied AI" und umfasst über 1.600 Fragen zu mehr als 180 realen Umgebungen, darunter Wohnungen und Büros. Die Fragen sind in sieben verschiedene Typen kategorisiert, um die Fähigkeiten einer KI in der Objekt- und Attributserkennung, räumlichem Denken, funktionalem Denken und Alltagswissen rigoros zu testen.

"Embodied Question Answering (EQA) ist sowohl eine sinnvolle Anwendung als auch ein Rahmen zur Bewertung des Weltverständnisses eines KI-Agenten", stellten die Forscher in ihrer Veröffentlichung fest. "EQA bedeutet, eine Umgebung so gut zu verstehen, dass man Fragen dazu in natürlicher Sprache beantworten kann."

Bemerkenswert ist, dass selbst fortschrittliche Modelle wie GPT-4V Schwierigkeiten hatten, die menschliche Leistung im OpenEQA zu erreichen, was auf den hohen Anspruch des Benchmarks hinweist, die Fähigkeit einer KI zu bewerten, reale Fragen zu erfassen und zu beantworten.

Vereinigung verschiedener KI-Bereiche

Die OpenEQA-Initiative verbindet mehrere fortschrittliche Bereiche der künstlichen Intelligenz, darunter Computer Vision, natürliche Sprachverarbeitung, Wissensdarstellung und Robotik. Das übergeordnete Ziel besteht darin, künstliche Agenten zu schaffen, die ihre Umgebung wahrnehmen und mit ihr interagieren, natürliche Gespräche mit Menschen führen und Wissen nutzen können, um das tägliche Leben zu verbessern.

Forscher sehen zwei Hauptanwendungen für diese "embodied intelligence". Erstens könnten KI-Assistenten, die in Augmented-Reality-Brillen oder -Headsets integriert sind, Video- und Sensordaten nutzen, um den Nutzern eine Art fotografisches Gedächtnis zu bieten, das Fragen wie „Wo habe ich meine Schlüssel gelassen?“ beantwortet. Zweitens könnten mobile Roboter autonom durch Umgebungen navigieren, um Informationen zu sammeln, beispielsweise durch die Fragen „Habe ich noch Kaffee?“.

Festlegung eines strengen Bewertungsstandards

Bei der Entwicklung des OpenEQA-Datensets sammelten die Forscher von Meta Videomaterial und 3D-Scans von realen Umgebungen. Sie luden dann Personen ein, Fragen zu formulieren, die sie einem KI-Assistenten mit Zugriff auf diese visuellen Daten stellen würden.

Das Datenset umfasst 1.636 Fragen, die ein breites Spektrum an Wahrnehmungs- und Denkfähigkeiten bewerten. Zum Beispiel erfordert die Beantwortung der Frage "Wie viele Stühle stehen um den Esstisch?" dass die KI Objekte identifiziert, den räumlichen Begriff "um" versteht und die relevanten Gegenstände zählt. Andere Fragen erfordern ein grundlegendes Verständnis von Objektverwendungen und -attributen.

Um die Genauigkeit zu verbessern, enthält jede Frage mehrere menschlich generierte Antworten, um zu berücksichtigen, dass verschiedene Antworten möglich sind. Zur Bewertung der KI-Leistung verwendeten die Forscher große Sprachmodelle, um die Ähnlichkeit zwischen KI-generierten Antworten und menschlichen Antworten automatisch zu messen.

Snowflake Copilot: KI-Assistent, unterstützt von Mistral Large, jetzt für die öffentliche Vorschau verfügbar

Buildbox 4 präsentiert eine No-Code KI-Game-Entwicklungsumgebung für mühelose Spielkreation.

Most people like

AdCopy.ai

28.5K

Entfesseln Sie das Potenzial Ihres eCommerce-Geschäfts mit AdCopy.ai, einer innovativen KI-gestützten Plattform, die Ihnen hilft, mühelos überzeugende Werbetexte zu erstellen. Verbessern Sie Ihre Marketingstrategie und steigern Sie die Conversions mit professionell generierten Inhalten, die auf Ihr Publikum zugeschnitten sind.

Andere AI Ad Creative Assistant

MagicSlides

617.2K

MagicSlides nutzt die Kraft der künstlichen Intelligenz, um beeindruckende Präsentationsfolien aus beliebigem Text zu erstellen. Verwandeln Sie Ihre Ideen mühelos in fesselnde visuelle Präsentationen!

Präsentationssoftware AI Presentation Generator

HomeworkAI

71.2K

Maßgeschneiderte Hausaufgabenlösungen, die ausschließlich für Studenten entwickelt wurden.

Hausaufgaben Homework Helper

Infography

32.6K

Möchten Sie Ihren Bloginhalt bereichern und Ihr Publikum fesseln? Die Umwandlung Ihrer Blogbeiträge in ansprechende Infografiken ist eine wirkungsvolle Methode, um Informationen visuell aufzubereiten. Infografiken vereinfachen nicht nur komplexe Daten, sondern machen sie auch leichter teilbar, was die Reichweite Ihres Inhalts erhöht. In diesem Leitfaden werden wir effektive Strategien kennenlernen, um Ihre schriftlichen Inhalte in beeindruckende Infografiken zu verwandeln, die Leser ansprechen und die Sichtbarkeit Ihrer Marke steigern. Erfahren Sie, wie Sie die Wirkung Ihrer Blogbeiträge maximieren können, indem Sie die Kunst der Infografiken nutzen!

Infografiken AI Photo & Image Generator

Find AI tools in YBX