С момента представления моделью генеративного ИИ Sora от OpenAI в начале этого года, немногие конкуренты смогли сопоставить её реализм и качество — до сих пор.
На своей ежегодной конференции разработчиков I/O Google анонсировала Veo, новую модель генеративного ИИ для создания видео, разработанную её известным подразделением DeepMind.
По словам Google, Veo способна генерировать «высококачественные клипы в 1080p продолжительностью более 60 секунд». На странице DeepMind в X сообщается, что модель охватывает различные кинематографические стили, от фотореализма и сюрреализма до анимации.
Google заявляет, что Veo стремится «сделать видеопроизводство доступным для всех», будь то опытные filmmakers, начинающие создатели или educators. Veo поддерживает преобразования текст-видео, видео-видео и изображение-видео.
В сотрудничестве с многогранным художником Дональдом Гловером, известным как Childish Gambino, Google протестировала новые функции Veo в его креативной студии Gilga.
Для демонстрации впечатляющих возможностей Veo DeepMind представила несколько сгенерированных видео на своих аккаунтах YouTube и X, где были показаны сцены неонового города, реалистичных медуз, ковбоев на лошадях, космических кораблей и человеческих взаимодействий. Результаты близки к живым съемкам и искусно выполненной анимации, созданной на основе простых текстовых подсказок.
В блоге вице-президента Google Эли Коллинза и старшего директора исследований Дугласа Эка подчеркивается, что Veo обладает «непревзойденным уровнем творческого контроля», с хорошим пониманием кинематографических терминов, таких как «таймлапс» и «аэрофотосъемка».
Кроме того, Veo позволяет быстро и качественно редактировать как сгенерированные ИИ, так и загруженные пользователем видео, включая предварительно записанный контент. Например, пользователи могут ввести команду редактирования, добавив каяки в аэрофотосъемку побережья, и Veo безупречно внедрит это в оригинальное видео.
Veo также отличается высокой последовательностью кадров, что устраняет некоторые несоответствия, часто встречающиеся в других моделях, включая Sora. Это достигается за счет современных трансформеров латентной диффузии, которые обеспечивают когерентность и реалистичность персонажей и объектов.
Для повышения производительности Google улучшила аннотации обучающих данных и использовала качественные сжатые видеопредставления. Эта оптимизация повышает общее качество видео и сокращает время генерации.
Все видео, создаваемые Veo, имеют встроенный SynthID, водяной знак контент-креденцирования от Google, подтверждающий их статус генерации ИИ.
Veo является результатом многолетних исследований DeepMind, основанных на предыдущих инновациях, таких как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere.
В настоящее время Veo недоступна для широкой публики. Следуя модели OpenAI с Sora, она доступна для избранных создателей через частный превью в VideoFX. Google планирует в конечном итоге интегрировать некоторые функции Veo в YouTube Shorts и другие продукты.