O Modelo de Geração de Imagens da Meta se Expande: Agora Inclui Recursos de Vídeo e Edição de Imagens Avançada

A Meta fez avanços significativos no campo da inteligência artificial generativa com o lançamento de seu modelo de geração de imagens atualizado, o Emu (Expressive Media Universe). Este poderoso modelo agora é capaz de gerar vídeos a partir de texto, além de contar com recursos aprimorados para a edição precisa de imagens.

Apresentada inicialmente durante o evento Meta Connect em setembro, a tecnologia do Emu fornece uma base para diversas experiências dinâmicas de IA generativa nas plataformas de mídia social da Meta. Por exemplo, ela melhora as ferramentas de edição de imagens no Instagram, permitindo que os usuários alterem facilmente o estilo visual ou o fundo de uma foto. O Emu está integrado à Meta AI, uma nova plataforma assistente para usuários que funciona de maneira semelhante ao ChatGPT da OpenAI.

O novo modelo Emu Video se destaca por sua capacidade dupla de produzir vídeos com base em texto em linguagem natural, imagens ou uma combinação de ambos. Ao contrário de modelos anteriores, como o Make-a-Video, que utilizavam cinco modelos de difusão, o Emu Video opera com um método mais simplificado, usando apenas dois. O processo ocorre em duas etapas principais: primeiro, gera-se uma imagem com base na solicitação de texto e, em seguida, cria-se um vídeo guiado pelas solicitações de texto e imagem. Essa metodologia simplificada permite um treinamento mais eficiente dos modelos de geração de vídeo. Em estudos com usuários, o Emu Video superou o Make-a-Video, com 96% dos participantes preferindo a qualidade e 85% concordando que ele seguia melhor suas solicitações de texto. Além disso, o Emu Video pode dar vida a imagens enviadas pelos usuários, animando-as de acordo com solicitações textuais específicas.

Outra atualização empolgante é a introdução do Emu Edit, que aprimora as capacidades de edição de imagens utilizando instruções em linguagem natural. Os usuários podem fazer o upload de uma imagem e especificar os ajustes que desejam ver. Por exemplo, podem solicitar a remoção de um elemento, como um poodle, e substituí-lo por um objeto diferente, como um banco vermelho — tudo isso apenas digitando seu pedido. Embora existam ferramentas de alteração de imagens impulsionadas por IA, como o ClipDrop, que utiliza Stable Diffusion, e recursos de edição de imagens no Runway, os pesquisadores da Meta observaram que os métodos existentes muitas vezes resultam em sobre-modificações ou em um desempenho insatisfatório nas tarefas de edição.

Em um post no blog, a Meta enfatizou que o objetivo não deve ser apenas criar uma imagem "crível", mas focar na modificação precisa apenas dos pixels relevantes para o pedido específico do usuário. A equipe descobriu que integrar tarefas de visão computacional como instruções para modelos de geração de imagens oferece um controle incomparável no processo de edição.

Para desenvolver o Emu Edit, a Meta utilizou um conjunto abrangente de dados com 10 milhões de imagens sintetizadas, cada uma composta por uma imagem de entrada, uma descrição detalhada da tarefa e a imagem de saída desejada. Isso permite que o modelo siga de perto as instruções dos usuários enquanto mantém a integridade dos elementos não relacionados na imagem original.

Aqueles interessados em explorar as capacidades do Emu Edit podem visualizar as imagens geradas no Hugging Face. Além disso, a Meta lançou o Emu Edit Test Set, um novo benchmark projetado para facilitar novos testes de modelos de edição de imagem. Esse conjunto inclui sete diferentes tarefas de edição de imagem, como alterações de fundo e remoções de objetos, abrindo caminho para avanços nas tecnologias de edição de imagem precisa.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles