Прорывная разработка ИИ от OpenAI под названием “Sora” представляет собой значительный шаг вперёд в области технологий. Эта инновационная модель текстового видео ИИ только что начала ограниченную фазу пользовательского тестирования, продемонстрировав свои удивительные возможности через несколько поразительно реалистичных видео, созданных ИИ.
Sora предназначена для преобразования текстовых подсказок в яркие видео-сцены. OpenAI демонстрирует это на своём сайте, показывая впечатляющие результаты. Подсказки, которые получает Sora, краткие, но содержательные; пользователи, знакомые с ChatGPT, могут заметить, что Sora может генерировать результаты даже из более коротких запросов. Например, для создания видео с шершащими мамонтами Sora понадобилась всего 67-словная подсказка, описывающая животных, их среду обитания и угол съемки.
Согласно OpenAI, “Sora может создавать видео длительностью до одной минуты, сохраняя высокое качество изображения и соответствие пользовательским запросам.” ИИ способен воссоздавать сложные сцены с множеством персонажей, разнообразными локациями и реалистичными движениями. OpenAI отмечает, что Sora может интерпретировать и извлекать дополнительный контекст из полученных подсказок.
Компания подчеркивает, что “модель понимает не только запросы пользователей, но и то, как эти элементы существуют в реальном мире.” Sora превосходит в создании не только персонажей и фонов, но и в создании “увлекательных персонажей, передающих глубокие эмоции.”
Кроме того, Sora обладает функцией продления существующих видео или заполнения пробелов, а также может генерировать видео из изображений, демонстрируя гибкость, выходящую за рамки текстовых запросов. Несмотря на то, что статичные изображения впечатляют, видеоматериалы действительно захватывают в движении. OpenAI представила ряд созданных видео, от улиц Токио в стиле Киберпанк до “исторических кадров” Калифорнии времен Золотой лихорадки, а также экстремальный крупный план человеческого глаза. Темы запросов охватывают разнообразные жанры, от анимационных сцен до фотографий дикой природы.
Несмотря на свои впечатляющие возможности, Sora имеет ограничения. Некоторые видео могут содержать недостатки, такие как отсутствие голов у фигур в толпе или неестественное движение. Эти неуклюжие движения могут быть не заметны сразу, но становятся очевидными при более внимательном рассмотрении.
Потребуется время, прежде чем Sora станет доступной для широкой публики. В настоящее время модель проходит тестирование у избранной группы специалистов для оценки потенциальных рисков, в то время как ряд контент-креаторов также начинает исследовать её функции на этапах ранней разработки.
С развитием технологий ИИ ожидания по производительности могут быть невысокими. Тем не менее, независимо от скромных ожиданий или продвинутых возможностей Sora, первые впечатления одновременно впечатляют и вызывают тревогу. В мире, где всё труднее отличить реальность от иллюзии, последствия этой технологии выходят за рамки изображений — теперь под угрозой оказались и видео. Sora не является первой инициативой в области текстового видео; такие модели, как Pika, также появились на рынке.
О беспокойствах в отношении этой технологии выразил мнение популярный техноблогер Marques Brownlee, который заметил в Twitter: “Если это вас не беспокоит хотя бы немного, ничего другое вас не беспокоит” в контексте демонстраций Sora.
Если Sora от OpenAI уже достигла такого уровня sophistication, интересно представить, каким будет её потенциал после дальнейшей разработки и тестирования в ближайшие годы. Хотя такая технология может повлиять на различные рынки труда, есть надежда, что, подобно ChatGPT, она будет интегрирована в сочетании с человеческой экспертизой.