Фундаментальные модели произвели революцию в компьютерном зрении и обработке естественного языка, и исследователи теперь предлагают применять эти принципы для разработки фундаментальных агентов. Эти системы ИИ созданы для выполнения задач открытого типа в физических средах.
В недавней позиции ученых из Университета Китайской академии наук фундаментальные агенты определены как «агенты с общей способностью действовать в физических и виртуальных мирах». Ученые предполагают, что такие агенты могут привести к парадигмальному сдвигу в принятии решений, аналогично тому, как большие языковые модели (BLL) революционизировали лингвистические и знаниецентрованные задачи.
Фундаментальные агенты способны упростить создание универсальных систем ИИ, которые могут значительно повлиять на области, в настоящее время зависящие от жестких, специализированных ИИ решений.
Проблемы принятия решений с использованием ИИ
Традиционные подходы к принятия решений с помощью ИИ имеют заметные ограничения. Экспертные системы зависят от формальных знаний человека и вручную созданных правил. Системы обучения с подкреплением требуют обширной настройки для каждой новой задачи, что ограничивает их возможности обобщения. Обучение путем имитации подразумевает значительные усилия со стороны человека для подготовки учебных примеров.
В отличие от этого, BLL и модели визуального языка (VLM) могут быстро адаптироваться к различным задачам с минимальной настройкой. Исследователи считают, что с необходимыми модификациями эти методы могут быть адаптированы для разработки фундаментальных агентов, способных справляться с задачами открытого типа как в физических, так и в виртуальных сферах.
Ключевые характеристики фундаментальных агентов
Исследователи выделяют три основные характеристики фундаментальных агентов:
1. Объединенное представление: Комплексное изображение состояния окружающей среды, действий агента и обратных сигналов.
2. Единый интерфейс управления: Применим ко многим задачам и областям, включая робототехнику, игры, здравоохранение и многое другое.
3. Обоснованный процесс принятия решений: Принятие решений на основе понимания знаний о мире, факторов окружающей среды и взаимодействия с другими агентами.
По словам исследователей, «Эти характеристики наделяют фундаментальных агентов многомодальной восприимчивостью, адаптивностью к задачам и способностью обобщать на основе небольшого количества примеров».
Дорожная карта для фундаментальных агентов
Предложенная дорожная карта развития фундаментальных агентов включает три ключевых компонента:
1. Сбор данных: Необходимо собрать масштабные интерактивные данные как из интернета, так и из реального мира. В случаях, когда получение данных затруднено, могут быть использованы симуляторы и генеративные модели, такие как Sora.
2. Предварительное обучение на неразмеченных данных: Фундаментальные агенты должны быть предварительно обучены с использованием неразмеченных данных для развития полезного знания о принятии решений. Это подготовит модели для дальнейшего тонкого обучения на меньших специализированных наборах данных, позволяя им быстрее адаптироваться к новым задачам.
3. Согласование с BLL: Фундаментальные агенты должны быть интегрированы с большими языковыми моделями для включения знаний о мире и человеческих ценностей в их процессы принятия решений.
Проблемы и возможности для фундаментальных агентов
Разработка фундаментальных агентов ставит перед собой уникальные задачи, которые не обсуждаются в контексте языковых и визуальных моделей. Подробности физического мира связаны с низкоуровневой информацией, а не с высокоуровневыми абстракциями, что усложняет создание объединенных представлений для переменных при принятии решений.
Кроме того, значительные вариации доменов между сценариями принятия решений затрудняют разработку единичного интерфейса политики. Хотя единая фундаментальная модель могла бы охватить все модальности и среды, это также может привести к усложнению, потенциально влияя на интерпретируемость.
Фундаментальные агенты должны активно участвовать в динамических процессах принятия решений, что отличается от в основном контентно-ориентированных ролей языковых и визуальных моделей. Исследователи предлагают различные пути для преодоления разрыва между существующими фундаментальными моделями и агентами, способными ориентироваться в меняющихся задачах и средах.
Значительные успехи отмечены в области робототехники, где системы управления и фундаментальные модели объединяются для создания адаптивных систем, способных обобщать на незнакомых задачах. Эти системы используют обширные знания общего характера из BLL и VLM для принятия обоснованных решений в незнакомых ситуациях.
Еще одной важной областью исследования является автономное вождение, где ученые исследуют, как большие языковые модели могут улучшить системы вождения, включая знания общего характера и человеческие когнитивные способности. Другие области, включая здравоохранение и научные исследования, также смогут извлечь пользу из сотрудничества фундаментальных агентов с человеческими экспертами.
«Фундаментальные агенты обладают потенциалом преобразовать процессы принятия решений так же, как фундаментальные модели повлияли на язык и зрение», заявляют исследователи. «Их продвинутая восприимчивость, адаптивность и способности к рассуждению не только решают ограничения традиционного обучения с подкреплением, но и раскрывают полный потенциал фундаментальных агентов в реальных приложениях».