Google apresenta Lumiere: um modelo de difusão espaço-temporal para a criação de vídeos realistas com IA.

Home Notícias de IA Google apresenta Lumiere: um modelo de difusão espaço-temporal para a criação de vídeos realistas com IA.

Updated on janeiro 24 2024

À medida que as empresas aproveitam cada vez mais o potencial da IA gerativa, estão se apressando para desenvolver soluções mais avançadas. Um exemplo notável é o Lumiere, um modelo de difusão espaço-temporal criado por pesquisadores do Google, do Instituto Weizmann de Ciência e da Universidade de Tel Aviv, destinado a aprimorar a geração de vídeos realistas.

O artigo recém-publicado descreve a tecnologia inovadora do Lumiere, embora ainda não esteja disponível para testes públicos. Assim que for lançado, o Google poderá se tornar um competidor formidável no setor de vídeo com IA, atualmente dominado por empresas como Runway, Pika e Stability AI.

O Que o Lumiere Pode Fazer?

Lumiere, derivado da palavra "luz", é um modelo de difusão de vídeo projetado para gerar vídeos realistas e estilizados. Os usuários podem inserir descrições textuais em linguagem natural para criar vídeos que correspondam aos seus comandos. Além disso, é possível fazer upload de imagens estáticas e aplicar prompts de texto para transformá-las em vídeos dinâmicos. Recursos fundamentais incluem a inpainting, que insere objetos específicos com base em comandos textuais; cinemagraph, que adiciona movimento a partes de cenas; e geração estilizada, permitindo que os usuários criem vídeos no estilo de uma imagem de referência escolhida.

Os pesquisadores destacaram seu sucesso: "Demonstramos resultados de geração de texto para vídeo de ponta, facilitando uma ampla gama de tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo imagem para vídeo, inpainting de vídeo e geração estilizada."

Desempenho e Metodologia

Embora existam capacidades semelhantes na indústria, como as oferecidas pela Runway e pela Pika, os autores argumentam que os modelos atuais frequentemente enfrentam dificuldades com a consistência temporal devido à sua abordagem em cascata. Normalmente, um modelo base gera keyframes, seguido por modelos de super-resolução temporal (TSR) que preenchem as lacunas, o que pode limitar a duração do vídeo e o realismo do movimento.

Lumiere aborda esses desafios utilizando uma arquitetura Space-Time U-Net, que gera a duração temporal completa de um vídeo em uma única passagem, aprimorando o realismo e a coerência. "Ao utilizar down-sampling e up-sampling espaciais e temporais, e construindo sobre um modelo de difusão de texto para imagem pré-treinado, nossa abordagem aprende a produzir vídeos em baixa resolução com taxa de quadros completa, processando-os em várias escalas espaço-temporais", afirmaram os pesquisadores.

Treinada em um conjunto de dados com 30 milhões de vídeos e suas respectivas legendas textuais, Lumiere consegue gerar 80 quadros a 16 fps, embora a origem do conjunto de dados ainda não esteja clara.

Comparação com Outros Modelos de Vídeo com IA

Em testes com modelos da Pika, Runway e Stability AI, os pesquisadores observaram que, embora esses competidores alcançassem alta qualidade visual por quadro, suas saídas curtas de quatro segundos frequentemente careciam de movimento dinâmico, resultando em clipes quase estáticos. O ImagenVideo também apresentou qualidade de movimento limitada.

"Em contraste, nosso método gera vídeos de 5 segundos com maior magnitude de movimento, mantendo tanto a consistência temporal quanto a qualidade geral", relataram os pesquisadores. Pesquisas com usuários indicaram uma preferência pelo Lumiere em relação a outros modelos para geração de vídeo a partir de texto e imagem.

Embora o Lumiere represente um avanço promissor no cenário de vídeos com IA, é crucial notar que ainda não está disponível para testes. Os pesquisadores também reconheceram limitações, como a incapacidade de gerar vídeos com múltiplos takes ou transições de cena contínuas — uma área identificada para exploração futura.

Dos “Vultures” de Ye a “True Detective”: Como a IA Está Moldando as Tendências da Cultura Pop

Avanço na Geração de Imagens por IA: Prepare-se para um Aumento de Deepfakes (LoRA Está Desatualizado?)

Most people like

Interview Prep AI

51K

Apresentamos seu coach de IA pessoal para entrevistas de emprego, projetado para oferecer uma experiência de prática realista que o prepara para o sucesso. Aprimore suas habilidades em entrevistas com simulações personalizadas que aumentam sua confiança e desempenho.

Preparação para entrevistas AI Interview Assistant

MuseChat

14.6K

Descubra o mundo da companhia por IA, onde a tecnologia se encontra com a conexão.

Companhia de IA AI Character

Deep English

193.3K

Aprimore suas habilidades de escuta e eleve suas capacidades de fala com lições envolventes, projetadas para cativar e inspirar.

aprender inglês AI Course

Viggle AI

27.1K

Transformar imagens estáticas em vídeos envolventes nunca foi tão fácil, graças ao inovador gerador de vídeo a partir de imagens com inteligência artificial. Essa tecnologia de ponta utiliza inteligência artificial para animar seu conteúdo visual, permitindo dar vida a fotografias e ilustrações. Seja você um criador de conteúdo, um profissional de marketing ou alguém que busca aprimorar sua narrativa digital, essa ferramenta abre um mundo de possibilidades criativas. Descubra como o gerador de vídeo a partir de imagens com IA está mudando a forma como visualizamos e compartilhamos nossas ideias por meio de visuais dinâmicos.

Ferramenta de animação de IA AI Character

Find AI tools in YBX