Команда исследователей из Adobe Research и Австралийского национального университета представила революционную модель искусственного интеллекта (ИИ), способную трансформировать одно 2D-изображение в качественную 3D-модель всего за пять секунд. Эта новаторская работа, описанная в научной статье "LRM: Large Reconstruction Model for Single Image to 3D", имеет потенциал изменить такие сферы, как игровые технологии, анимация, промышленный дизайн, дополненная реальность (AR) и виртуальная реальность (VR).
Исследователи отмечают: "Представьте, если бы мы могли мгновенно создать 3D-форму из единичного изображения любого объекта. Эта цель вдохновила на обширные исследования, направленные на поиск универсального и эффективного подхода к 3D-реконструкции."
Совершенное обучение с использованием массивных наборов данных
В отличие от традиционных методов, сосредоточенных на конкретных категориях и меньших наборах данных, LRM использует масштабируемую архитектуру нейронной сети на основе трансформеров с более чем 500 миллионами параметров. Она обучена на примерно одном миллионе 3D-объектов из наборов данных Objaverse и MVImgNet, что позволяет предсказывать нейронное радианциальное поле (NeRF) непосредственно из входных изображений.
"Это сочетание модели с высокой производительностью и обширных обучающих данных делает нашу модель высоко универсальной, позволяя создавать 3D-реконструкции высокого качества на основе разнообразных входных данных, включая реальные захваты и генеративные модели," — поясняют исследователи.
Йицонг Хонг, главный автор, подчеркивает важность LRM в области 3D-реконструкции из одиночного изображения: "Насколько нам известно, LRM — это первая крупномасштабная 3D-реконструкция с более чем 500 миллионами обучаемых параметров, обученная на огромном количестве 3D-форм и видеоданных из различных категорий."
Трансформационный потенциал в различных отраслях
Применение LRM очень разнообразно, от практического промышленного дизайна до увлекательных развлекательных и игровых приложений. Эта технология может значительно упростить создание 3D-моделей для видеоигр и анимаций, существенно сократив время и ресурсы на разработку.
В промышленном дизайне LRM может ускорить прототипирование, создавая точные 3D-модели из 2D-эскизов. В средах AR/VR она обещает улучшить пользовательский опыт, создавая сложные 3D-ландшафты из 2D изображений в реальном времени. Более того, возможность анализа "в дикой природе" захватов позволяет генерировать пользовательский контент, демократизируя 3D-моделирование. Пользователи могут потенциально создавать высококачественные модели напрямую из фотографий на смартфоне, открывая новые творческие и коммерческие возможности.
Достижения и ограничения
Несмотря на многообещающий потенциал, исследователи признают, что LRM имеет ограничения, такие как генерация размытых текстур в закрытых областях. Тем не менее, они подчеркивают успех крупных моделей на основе трансформеров, обученных на обширных наборах данных, в продвижении универсальных возможностей 3D-реконструкции.
"Мы надеемся, что наше исследование вдохновит дальнейшие исследования моделей 3D-реконструкции, основанных на данных, которые смогут эффективно обобщать информацию с произвольных изображений," — заключают они.
Для получения дополнительной информации о впечатляющих возможностях LRM и примерах высококачественных 3D-моделей, созданных из одиночных изображений, посетите страницу проекта команды.