Исследователи из Университета Цинхуа и Zhipu AI представили CogVideoX — открытая модель преобразования текста в видео, способная произвести революцию в сфере искусственного интеллекта, традиционно контролируемой стартапами, такими как Runway, Luma AI и Pika Labs. Этот значительный прорыв, освещенный в недавней публикации на arXiv, предоставляет разработчикам по всему миру мощные инструменты для генерации видео.
CogVideoX создает высококачественные, последовательные видео длительностью до шести секунд на основе текстовых запросов, превосходя известные конкуренты, такие как VideoCrafter-2.0 и OpenSora по различным показателям производительности, как подтверждают результаты исследований. Выдающаяся особенность CogVideoX-5B — это 5 миллиардов параметров, которые создают видео с разрешением 720×480 при 8 кадрах в секунду. Хотя эти характеристики могут не соперничать с закрытыми системами, открытый исходный код модели является ее ключевым преимуществом.
Демократизация через открытый код
Предоставляя свой код и веса модели общественности, команда Цинхуа сделала технологии видео более доступными, ранее являвшимися привилегией хорошо финансируемых компаний. Эта доступность может ускорить эволюцию видео, сгенерированного ИИ, за счет вовлечения коллективного опыта глобального сообщества разработчиков.
В основе выдающейся производительности CogVideoX лежат технические инновации, включая 3D вариационный автокодировщик (VAE) для эффективной компрессии видео и «экспертный трансформер», предназначенный для улучшения соответствия текста и видео. "Чтобы улучшить соответствие между видео и текстами, мы предлагаем экспертный трансформер с адаптивной нормализацией слоя, который способствует слиянию этих двух модальностей," - говорится в статье. Это достижение позволяет более тонко понимать текстовые запросы, что ведет к точной генерации видео.
Запуск CogVideoX ознаменовывает важные изменения в AI-среде, предоставляя малым компаниям и индивидуальным разработчикам доступ к возможностям, которые ранее были доступны только ресурсно богатым организациям. Этот сдвиг может вдохновить инновации в различных секторах, таких как реклама, развлечения, образование и научная визуализация.
Этические аспекты генерации видео с использованием ИИ
Тем не менее, широкая доступность такой мощной технологии представляет собой риски, в частности, возможность ее злоупотребления для создания дипфейков или вводящего в заблуждение контента. Исследователи подчеркивают эти этические вызовы и выступают за ответственное использование технологий.
С ростом доступности и сложности видео, созданного ИИ, мы вступаем в новую эру цифрового контентного производства. CogVideoX может стать поворотным моментом, перераспределяя мощь от крупных игроков к более децентрализованной модели открытого кода в разработке ИИ.
Истинные последствия этой дематериализации остаются неопределенными. Повлечет ли это за собой рост креативности и инноваций или усугубит проблемы, такие как дезинформация и цифровая манипуляция? По мере прогресса технологий взаимодействие между политиками, этиками и сообществом ИИ будет критически важным для разработки норм ответственной практики.
Теперь, когда CogVideoX доступен, будущее видео, созданного с помощью ИИ, больше не ограничивается лабораториями Кремниевой долины; оно находится в руках разработчиков по всему миру, формируя новый фронтир возможностей и вызовов.