Вчера я размышлял о том, сможет ли Google успешно запустить свой продукт на основе ИИ с первой попытки. С запуском VideoPoet, похоже, мы получили ответ.
На этой неделе Google представил VideoPoet — революционную модель большого языка (LLM), созданную командой из 31 исследователя Google Research для выполнения разнообразных задач генерации видео.
Разработка этой LLM заслуживает особого внимания. В предварительном исследовательском отчете команды указано: «Большинство существующих моделей используют методы диффузии, которые считаются лидерами в генерации видео. Обычно такие модели начинают с предобученной модели изображения, например Stable Diffusion, для создания изображений высокого качества для отдельных кадров, а затем уточняются для повышения временной согласованности между кадрами».
В отличие от этого, команда Google решила использовать LLM, основанную на архитектуре трансформеров, обычно применяемой для генерации текстов и кода (например, ChatGPT, Claude 2, Llama 2). Однако VideoPoet была специально обучена для создания видео.
Важность предобучения
Успех VideoPoet связан с обширным предобучением на 270 миллионах видео и более 1 миллиардом пар текстов и изображений, собранных из открытых источников интернета. Эти данные были преобразованы в текстовые вложения, визуальные токены и аудиотокены, которые использует модель.
Результаты впечатляют, особенно по сравнению с высокоэффективными инструментами генерации видео для потребителей, такими как Runway и Pika — последний из которых является инвестицией Google.
Длинные, качественные клипы с улучшенной анимацией
Google Research утверждает, что их подход на основе LLM позволяет создавать длинные высококачественные клипы, решая текущие ограничения, с которыми сталкивается ИИ генерации видео на основе диффузии, часто испытывающие трудности с поддержанием согласованного движения в длительных последовательностях. Как отметили члены команды Дэн Кондратюк и Дэвид Росс в блоге Google Research: «Одним из текущих узких мест в генерации видео является способность создавать согласованные крупные движения. Многие передовые модели либо генерируют небольшие движения, либо производят заметные артефакты при попытках создать более крупные движения».
VideoPoet, тем не менее, может обеспечивать крупные и более согласованные движения в видео до 16 кадров. Она также предлагает разнообразие функциональности с самого начала, включая симуляцию различных движений камеры, визуальных стилей и даже генерацию нового аудио для дополнения визуального контента. Важно, что она обрабатывает несколько типов входных данных — текст, изображения и видео — в качестве подсказок.
Консолидируя эти функции генерации видео в одной LLM, VideoPoet устраняет необходимость в множестве специализированных инструментов, предлагая единое целостное решение для создания видео.
На самом деле, опрос, проведенный командой Google Research, показал, что зрители предпочитают клипы, созданные VideoPoet. Когда люди оценивали клипы рядом с моделями диффузии, такими как Source-1, VideoCrafter и Phenaki, видео VideoPoet consistently предпочитались.
Согласно блогу Google Research, «в среднем респонденты выбрали 24–35% примеров VideoPoet как более соответствующих подсказкам, чем конкурирующие модели, по сравнению с 8–11% для других. Кроме того, 41–54% примеров VideoPoet получили оценки, как имеющие более интересную анимацию в сравнении с 11–21% от других моделей».
Создан для вертикального видео
Google Research адаптировала VideoPoet для генерации видео в портретной (вертикальной) ориентации по умолчанию, что привлекает мобильную аудиторию видео, популяризированную такими платформами, как Snapchat и TikTok.
Смотря в будущее, Google Research планирует расширить функциональность VideoPoet, чтобы поддерживать задачи генерации «в любом формате», включая генерацию текста в аудио и аудио в видео, что еще больше продвинет возможности генерации видео и аудио.
На данный момент VideoPoet недоступен для публичного использования, и мы ждем информации от Google о его выходе. До этого момента растет интерес, пока мы ожидаем, как он будет смотреться на фоне других инструментов на рынке.