Meta AI запустила OpenEQA для повышения уровня «воплощённого интеллекта» в искусственных агентах.

Исследователи Meta AI представили OpenEQA — инновационный открытый набор данных для оценки способности искусственного интеллекта в области «воплощённого ответов на вопросы». Эта возможность позволяет ИИ понимать реальный мир и точно отвечать на запросы на естественном языке о различных средах.

OpenEQA позиционируется как ключевой ресурс для развивающейся области «воплощённого ИИ» и включает более 1,600 вопросов, связанных с более чем 180 реальными окружениями, такими как дома и офисы. Вопросы разделены на семь различных типов для строгої оценки навыков ИИ в распознавании объектов и атрибутов, пространственном и функциональном мышлении, а также общих знаний.

«Воплощённый ответ на вопросы (EQA) является как значимым приложением, так и рамкой для оценки понимания мира ИИ-агентом», — отмечают исследователи в своём публикации. «EQA подразумевает достаточное понимание окружения для ответа на вопросы о нем на естественном языке».

Интересно, что даже передовые модели, такие как GPT-4V, сталкивались с трудностями в сопоставлении с человеческими результатами в OpenEQA, что демонстрирует строгость этого бенчмарка в оценке способности ИИ понимать и отвечать на реальные вопросы.

Объединение различных областей ИИ

Инициатива OpenEQA соединяет несколько передовых направлений в искусственном интеллекте, включая компьютерное зрение, обработку естественного языка, представление знаний и робототехнику. Конечная цель состоит в создании искусственных агентов, способных воспринимать и взаимодействовать с окружением, вести естественные беседы с людьми и использовать знания для улучшения повседневной жизни.

Исследователи видят две основные области применения этой «воплощённой интеллекции». Во-первых, ИИ-ассистенты, интегрированные в очки дополненной реальности или гарнитуры, могут использовать видеоданные и данные сенсоров для предоставления пользователям «фотографической памяти», отвечая на вопросы вроде: «Где я оставил свои ключи?». Во-вторых, мобильные роботы могут автономно исследовать окружающую среду для сбора информации, например, выясняя: «У меня остался кофе?».

Установление строгого стандартного оценивания

При разработке набора данных OpenEQA исследователи Meta начали с сбора видеоматериалов и 3D-сканов реальных локаций. Затем они пригласили людей сформулировать вопросы, которые они бы задали ИИ-ассистенту с доступом к этим визуальным данным.

Набор данных включает 1,636 вопросов, оценивающих широкий спектр навыков восприятия и рассуждений. Например, ответ на вопрос «Сколько стульев вокруг обеденного стола?» требует от ИИ идентификации объектов, понимания пространственного термина «вокруг» и подсчёта соответствующих предметов. Другие вопросы требуют основополагающего понимания использования и атрибутов объектов.

Для повышения точности каждый вопрос имеет несколько ответов, созданных людьми, учитывая, что могут быть разные варианты ответов. Для оценки производительности ИИ исследователи использовали большие языковые модели для автоматического определения сходства между ответами ИИ и ответами людей.

Most people like

Find AI tools in YBX