Ландшафт генерации видео с использованием искусственного интеллекта продолжает расширяться с запуском Pyramid Flow на этой неделе. Эта открытая модель производит высококачественные видеоклипы длительностью до 10 секунд с впечатляющей скоростью.
Разработанная коллективом из Пекинского университета, Университета СМИ Пекина и компании Kuaishou Technology (известной своим генератором видео Kling AI), Pyramid Flow применяет новаторский подход. Она генерирует видео в нескольких этапах, преимущественно в низком разрешении, оставляя полное разрешение для финального результата.
С возможностью создания 5-секундного видео в разрешении 384p всего за 56 секунд, показатели Pyramid Flow соперничают с ведущими моделями. Тем не менее, Gen 3 Alpha Turbo от Runway по-прежнему удерживает лидерство по скорости, часто создавая видео за менее чем минуту, а некоторые тесты показывают время от 10 до 20 секунд.
Хотя мы лично не тестировали Pyramid Flow, демонстрационные видео, представленные ее создателями, показывают необычайно реалистичные визуализации и разрешение, сопоставимое с проприетарными системами. Примеры доступны на странице проекта GitHub.
Pyramid Flow разработан для простого скачивания и использования, включая коммерческие приложения, позиционируясь как надежная альтернатива платным конкурентам, таким как Gen-3 Alpha от Runway, Dream Machine от Luma, Kling и Haulio, которые могут требовать значительных годовых взносов за безлимитные подписки.
В конкурентной сфере поставщиков видео с ИИ Pyramid Flow обещает эффективность и гибкость для разработчиков, художников и создателей контента, стремящихся к продвинутым решениям генерации видео.
Новая техника: Пирамидальное Прямое Соответствие
Генерация видео с ИИ требует значительных вычислительных ресурсов, часто подразумевающих использование нескольких моделей на разных этапах, что усложняет обучение. Pyramid Flow вводит пирамидальное прямое соответствие, технику, которая значительно снижает вычислительную нагрузку, сохраняая при этом визуальное качество. Этот метод завершает генерацию видео через систематическую «пирамиду» этапов, используя полное разрешение только на последнем шаге.
Эта методология подробно рассмотрена в предобзоре статьи под названием «Пирамидальное Прямое Соответствие для Эффективного Генеративного Моделирования Видео», представленной в журнале открытого доступа arXiv 8 октября 2024 года. Исследовательская группа включает Яна Цзина, Чжичэна Сунь, Ниньюаня Ли, Сюна Жуня и других, большинство из которых связаны с Пекинским университетом и Kuaishou Technology.
В статье описано, как оптимизация генерации видео на разных этапах способствует более быстрой сходимости обучения, позволяя Pyramid Flow генерировать больше образцов с меньшими затратами при обработке. В частности, это снижает количество токенов в четыре раза по сравнению с традиционными диффузионными моделями, повышая эффективность обучения.
Модель может создавать видео длительностью от 5 до 10 секунд при разрешении 768p и 24 кадрах в секунду, обучаясь на открытых наборах данных, включая LAION-5B, CC-12M, SA-1B, WebVid-10M и OpenVid-1M, что составляет около 10 миллионов одиночных видеороликов.
Тем не менее, остаются опасения относительно источников этих наборов данных, например, LAION-5B подвергся обвинениям в размещении авторских материалов без согласия. Также Runway сталкивается с юридическими проблемами, его жалуют художники за аналогичные нарушения авторских прав.
Открытый Исходный Код и Коммерческое Использование
Pyramid Flow выпущен под лицензией MIT, что позволяет широкое использование, включая коммерческие цели, модификации и перераспределение, при условии сохранения уведомления об авторских правах. Это делает его привлекательным выбором для разработчиков и компаний, стремящихся интегрировать возможности видео ИИ без затрат на проприетарные модели.
Тем не менее, хотя Pyramid Flow является многообещающим инструментом, он в настоящее время не обладает некоторыми из продвинутых функций доступных в проприетарных моделях. Например, Gen-3 Alpha от Runway предлагает детальный контроль над такими элементами, как углы камеры и человеческие жесты, которые Pyramid Flow пока не может воспроизвести. Более того, его относительно недавнее появление означает, что его экосистема не так развита, как у некоторых конкурентов.
Будущее Генерации Видео с ИИ
По мере эволюции рынка генерации видео с ИИ появление Pyramid Flow представляет собой сдвиг к более доступным, открытым альтернативам, способным конкурировать с устоявшимися проприетарными решениями. Обеспечивая впечатляющее качество видео без ограничений традиционных моделей, Pyramid Flow готов стать предпочтительным инструментом для создателей и разработчиков.
Взглянув в будущее, участники отрасли будут пристально следить за траекторией и потенциальными усовершенствованиями Pyramid Flow, так как все участники соревнуются за технологическое превосходство и привлечение пользователей в этой динамичной сфере. Тем временем Sora от OpenAI, представленная в начале 2024 года, остается в значительной степени непроверенной за пределами ограниченной группы первых пользователей.