DrEureka от Nvidia превзошла человеческие способности в обучении робототехнических систем.

Home Новости ИИ DrEureka от Nvidia превзошла человеческие способности в обучении робототехнических систем.

Крупные языковые модели (LLM) радикально меняют подход к обучению робототехнических систем, как показало недавнее исследование, проведенное Nvidia, Университетом Пенсильвании и Университетом Техаса в Остине. В исследовании представлена техника DrEureka, которая автоматически создает функции вознаграждения и распределения случайных параметров для робототехнических систем. DrEureka (Domain Randomization Eureka) требует лишь описание задачи на высоком уровне и превосходит традиционные вознаграждения, разработанные людьми, в переносе изученных политик из симуляции в реальные приложения.

Перенос из симуляции в реальность

В робототехнике политики обычно обучаются в симулированных условиях перед внедрением в реальный мир. Проблема переноса этих изученных политик, часто называемая «расстоянием между симуляцией и реальностью», требует значительной доработки между симуляцией и реальными условиями. Недавние достижения показывают, что LLM могут использовать свои обширные знания и навыки рассуждения наряду с физическими движками виртуальных симуляторов для освоения сложных моторных навыков. LLM способны генерировать функции вознаграждения — ключевые компоненты, которые направляют системы обучения с подкреплением (RL), для определения оптимальных последовательностей действий, необходимых для выполнения задач. Однако перенос изученной политики в реальные приложения часто подразумевает трудоемкие корректировки функций вознаграждения и параметров симуляции.

Решение DrEureka

DrEureka нацелена на оптимизацию процесса переноса из симуляции в реальность, автоматизируя проектирование функций вознаграждения и параметров доменной рандомизации (DR). Основываясь на технике Eureka, представленной в октябре 2023 года, DrEureka использует LLM для генерации программных реализаций функций вознаграждения на основе описаний задач. Эти функции тестируются в симуляциях, а результаты служат основой для внесения изменений, что позволяет одновременно оптимизировать несколько функций вознаграждения. В то время как Eureka облегчает обучение RL-политик в симулированных условиях, она не решает сложные проблемы реальных сценариев и требует ручного вмешательства для перехода от симуляции к реальности. DrEureka улучшает этот процесс, автоматически настраивая параметры DR. Техники DR вводят изменчивость в симуляцию, позволяя политикам RL адаптироваться к непредсказуемости реального мира. Выбор соответствующих параметров требует здравого физического понимания, что делает данную задачу идеальной для LLM.

Реализация DrEureka

DrEureka применяет многоступенчатый подход для одновременной оптимизации функций вознаграждения и доменной рандомизации. Сначала LLM генерирует функции вознаграждения на основе инструкций по безопасности и описаний задач. Модель использует эти инструкции для разработки начальной функции вознаграждения, обучаясь политике, схожей с оригинальным методом Eureka. Затем проводятся тесты для определения оптимальных физических параметров, таких как трение и гравитация, которые направляют выбор конфигураций доменной рандомизации. Политика затем переобучается с учетом этих конфигураций, что увеличивает ее устойчивость к реальному шуму. Исследователи описывают DrEureka как «канал, управляемый языковой моделью, для переноса из симуляции в реальность с минимальным вмешательством человека».

Результаты производительности

Команда оценила DrEureka на платформах с четвероногими и манипулятивными роботами. Их результаты показали, что политики передвижения четвероногих роботов, обученные с помощью DrEureka, превосходили традиционные системы, разработанные человеком, на 34% по скорости движения и на 20% по пройденному расстоянию по различным местностям. В тестах по ловкости манипуляции лучшая политика, разработанная DrEureka, достигла на 300% больше вращений куба за фиксированное время по сравнению с политиками, созданными людьми.

Одним из примечательных применений DrEureka стал робот-собака, балансирующий и шагающий по йога-мячу. LLM успешно разработала функции вознаграждения и конфигурации DR, которые обеспечили бесперебойную работу в реальности, не требуя дополнительных настроек, и эффективно функционировала на различных поверхностях как в помещении, так и на улице с минимальной поддержкой безопасности. Исследование также показало, что добавление инструкций по безопасности в описание задач значительно влияет на логическую последовательность инструкций, генерируемых LLM, для переноса в реальность.

«Мы считаем, что DrEureka демонстрирует потенциал ускорить исследования в области обучения роботов, автоматизируя сложные элементы дизайна для приобретения низкоуровневых навыков», — заключили исследователи.

Neurable привлекает 13 миллионов долларов финансирования для разработки повседневных технологий интерфейса "мозг-компьютер".

OpenAI сотрудничает с Stack Overflow для улучшения AI-моделей и достижения excelência в программировании.

Most people like

Voicenotes

205.3K

Освободите свои мысли без усилий. Ощутите безупречную память.

ведение заметок AI Notes Assistant

AI-Text-Humanizer.com

22.1K

Представляем вам исключительный бесплатный инструмент, созданный для преобразования текста, сгенерированного ИИ, в аутентичное, похожее на человеческое письмо. Идеально подходит для создателей контента, маркетологов и всех, кто стремится улучшить читаемость и жизненность своего ИИ-контента. Узнайте, как этот инструмент может поднять ваше письмо на новый уровень уже сегодня!

Гуманизатор текста на основе ИИ AI Detector

Takeoff

153K

Повышайте свою экспертность в области ИИ с помощью тщательно отобранных онлайн-курсов, призванных развить ваши навыки и знания в искусственном интеллекте.

Искусственный интеллект обучение AI Course

Humanize AI Text

325.8K

Преобразуйте текст, созданный ИИ, в плавный и естественный язык, который откликается у читателей. Этот процесс улучшает читаемость и вовлеченность, гарантируя, что ваш контент эффективно и искренне передает сообщение. Используя специализированные техники, мы сокращаем разрыв между роботизированным текстом и подлинным человеческим выражением, оптимизируя ваш контент как для вовлеченности аудитории, так и для поисковых систем.

Конвертер текстов на основе ИИ AI Content Detector

Find AI tools in YBX