Команда Google DeepMind недавно представила Genie — базовую модель мира с 11 миллиардами параметров, способную преобразовывать одно изображение в интерактивный виртуальный мир. Эта прорывная технология привлекла значительное внимание и знаменует собой важный момент, когда искусственный интеллект входит в сферу видеоигр.
В отличие от предыдущих моделей, Google Genie обучается на 200,000 часов неразмеченных видеоматериалов из интернета без необходимости в контролируемом обучении, что позволяет ему генерировать разнообразные сцены. Genie может также распознавать главных персонажей в сцене без действиям меток, что открывает возможности для взаимодействия пользователя и подчеркивает его огромный потенциал в создании виртуальных пространств.
В основе возможностей Genie лежат три ключевых компонента: модель скрытых действий, токенизатор видео и авторегрессивная динамическая модель. Эти элементы совместно формируют скрытое пространство действий, которое обогащает взаимодействие пользователей и позволяет агентам воспроизводить невидимое поведение из видео.
Кроме того, Genie поддерживает инновационное использование человеческих эскизов или реальных изображений. С применением продвинутых моделей генерации текста в изображение Genie может преобразовать начальный кадр в интерактивную виртуальную вселенную, значительно расширяя свою функциональность.
Тим Роктэшель, глава команды Genie, подчеркивает, что Genie представляет собой важный шаг в развитии искусственного общего интеллекта (AGI), который готов изменить ландшафт интерактивных генеративных сред и заложить основу для будущих достижений в области ИИ.
В заключение, модель Genie от Google DeepMind предвосхищает революционный сдвиг в индустрии видеоигр. Ее способность создавать играбельные виртуальные миры из одного изображения сигнализирует о грядущей массовой интеграции ИИ в игровую сферу.