Впечатляющий новый мультимодальный AI-видео-редактор от Google: познакомьтесь с VideoPoet!

Home Новости ИИ Впечатляющий новый мультимодальный AI-видео-редактор от Google: познакомьтесь с VideoPoet!

Updated on декабрь 20 2023

Вчера я размышлял о том, сможет ли Google успешно запустить свой продукт на основе ИИ с первой попытки. С запуском VideoPoet, похоже, мы получили ответ.

На этой неделе Google представил VideoPoet — революционную модель большого языка (LLM), созданную командой из 31 исследователя Google Research для выполнения разнообразных задач генерации видео.

Разработка этой LLM заслуживает особого внимания. В предварительном исследовательском отчете команды указано: «Большинство существующих моделей используют методы диффузии, которые считаются лидерами в генерации видео. Обычно такие модели начинают с предобученной модели изображения, например Stable Diffusion, для создания изображений высокого качества для отдельных кадров, а затем уточняются для повышения временной согласованности между кадрами».

В отличие от этого, команда Google решила использовать LLM, основанную на архитектуре трансформеров, обычно применяемой для генерации текстов и кода (например, ChatGPT, Claude 2, Llama 2). Однако VideoPoet была специально обучена для создания видео.

Важность предобучения

Успех VideoPoet связан с обширным предобучением на 270 миллионах видео и более 1 миллиардом пар текстов и изображений, собранных из открытых источников интернета. Эти данные были преобразованы в текстовые вложения, визуальные токены и аудиотокены, которые использует модель.

Результаты впечатляют, особенно по сравнению с высокоэффективными инструментами генерации видео для потребителей, такими как Runway и Pika — последний из которых является инвестицией Google.

Длинные, качественные клипы с улучшенной анимацией

Google Research утверждает, что их подход на основе LLM позволяет создавать длинные высококачественные клипы, решая текущие ограничения, с которыми сталкивается ИИ генерации видео на основе диффузии, часто испытывающие трудности с поддержанием согласованного движения в длительных последовательностях. Как отметили члены команды Дэн Кондратюк и Дэвид Росс в блоге Google Research: «Одним из текущих узких мест в генерации видео является способность создавать согласованные крупные движения. Многие передовые модели либо генерируют небольшие движения, либо производят заметные артефакты при попытках создать более крупные движения».

VideoPoet, тем не менее, может обеспечивать крупные и более согласованные движения в видео до 16 кадров. Она также предлагает разнообразие функциональности с самого начала, включая симуляцию различных движений камеры, визуальных стилей и даже генерацию нового аудио для дополнения визуального контента. Важно, что она обрабатывает несколько типов входных данных — текст, изображения и видео — в качестве подсказок.

Консолидируя эти функции генерации видео в одной LLM, VideoPoet устраняет необходимость в множестве специализированных инструментов, предлагая единое целостное решение для создания видео.

На самом деле, опрос, проведенный командой Google Research, показал, что зрители предпочитают клипы, созданные VideoPoet. Когда люди оценивали клипы рядом с моделями диффузии, такими как Source-1, VideoCrafter и Phenaki, видео VideoPoet consistently предпочитались.

Согласно блогу Google Research, «в среднем респонденты выбрали 24–35% примеров VideoPoet как более соответствующих подсказкам, чем конкурирующие модели, по сравнению с 8–11% для других. Кроме того, 41–54% примеров VideoPoet получили оценки, как имеющие более интересную анимацию в сравнении с 11–21% от других моделей».

Создан для вертикального видео

Google Research адаптировала VideoPoet для генерации видео в портретной (вертикальной) ориентации по умолчанию, что привлекает мобильную аудиторию видео, популяризированную такими платформами, как Snapchat и TikTok.

Смотря в будущее, Google Research планирует расширить функциональность VideoPoet, чтобы поддерживать задачи генерации «в любом формате», включая генерацию текста в аудио и аудио в видео, что еще больше продвинет возможности генерации видео и аудио.

На данный момент VideoPoet недоступен для публичного использования, и мы ждем информации от Google о его выходе. До этого момента растет интерес, пока мы ожидаем, как он будет смотреться на фоне других инструментов на рынке.

Откройте для себя Midjourney V6: новые возможности улучшенногоPrompting и текста внутри изображений!

Узнайте, как последние исследования в области ИИ от Apple могут изменить ваш опыт использования iPhone.

Most people like

revid.ai

260.1K

Откройте для себя возможности инструмента на основе ИИ, созданного для простого создания захватывающих вирусных короткометражных видео. Это инновационное решение использует современные технологии искусственного интеллекта для оптимизации процесса видеопроизводства, гарантируя, что ваш контент не только привлечет внимание, но и найдет отклик у зрителей. Независимо от того, являетесь ли вы создателем контента, маркетологом или владельцем бизнеса, этот инструмент делает создание делящихся и увлекательных видео проще, чем когда-либо. Примите будущее видеомаркетинга и наблюдайте, как растет ваша аудитория!

Инструмент для создания видео с помощью ИИ Text to Video

Storywizard.ai

12.6K

Откройте для себя современную платформу, использующую искусственный интеллект для предоставления индивидуальных образовательных программ, разработанных специально для детей.

Платформа на базе ИИ AI Story Writing

SOUNDRAW

Легко создавайте захватывающую музыку для ваших видео, фильмов и других проектов с помощью инновационного генератора музыки на базе ИИ от SOUNDRAW.

Генератор музыки на основе ИИ AI Music Generator

Paperclips

36.9K

Представляем Paperclips — инновационное веб-приложение, которое использует возможности ИИ для легкого преобразования ваших учебных заметок или онлайн-контента в увлекательные флешкарты. Упрощайте процесс обучения и улучшайте запоминание с этим современным инструментом, разработанным для обучающихся по всему миру.

Карточки AI Product Description Generator

Find AI tools in YBX