O Modelo de Geração de Imagens da Meta se Expande: Agora Inclui Recursos de Vídeo e Edição de Imagens Avançada

Home Notícias de IA O Modelo de Geração de Imagens da Meta se Expande: Agora Inclui Recursos de Vídeo e Edição de Imagens Avançada

Updated on outubro 25 2024

A Meta fez avanços significativos no campo da inteligência artificial generativa com o lançamento de seu modelo de geração de imagens atualizado, o Emu (Expressive Media Universe). Este poderoso modelo agora é capaz de gerar vídeos a partir de texto, além de contar com recursos aprimorados para a edição precisa de imagens.

Apresentada inicialmente durante o evento Meta Connect em setembro, a tecnologia do Emu fornece uma base para diversas experiências dinâmicas de IA generativa nas plataformas de mídia social da Meta. Por exemplo, ela melhora as ferramentas de edição de imagens no Instagram, permitindo que os usuários alterem facilmente o estilo visual ou o fundo de uma foto. O Emu está integrado à Meta AI, uma nova plataforma assistente para usuários que funciona de maneira semelhante ao ChatGPT da OpenAI.

O novo modelo Emu Video se destaca por sua capacidade dupla de produzir vídeos com base em texto em linguagem natural, imagens ou uma combinação de ambos. Ao contrário de modelos anteriores, como o Make-a-Video, que utilizavam cinco modelos de difusão, o Emu Video opera com um método mais simplificado, usando apenas dois. O processo ocorre em duas etapas principais: primeiro, gera-se uma imagem com base na solicitação de texto e, em seguida, cria-se um vídeo guiado pelas solicitações de texto e imagem. Essa metodologia simplificada permite um treinamento mais eficiente dos modelos de geração de vídeo. Em estudos com usuários, o Emu Video superou o Make-a-Video, com 96% dos participantes preferindo a qualidade e 85% concordando que ele seguia melhor suas solicitações de texto. Além disso, o Emu Video pode dar vida a imagens enviadas pelos usuários, animando-as de acordo com solicitações textuais específicas.

Outra atualização empolgante é a introdução do Emu Edit, que aprimora as capacidades de edição de imagens utilizando instruções em linguagem natural. Os usuários podem fazer o upload de uma imagem e especificar os ajustes que desejam ver. Por exemplo, podem solicitar a remoção de um elemento, como um poodle, e substituí-lo por um objeto diferente, como um banco vermelho — tudo isso apenas digitando seu pedido. Embora existam ferramentas de alteração de imagens impulsionadas por IA, como o ClipDrop, que utiliza Stable Diffusion, e recursos de edição de imagens no Runway, os pesquisadores da Meta observaram que os métodos existentes muitas vezes resultam em sobre-modificações ou em um desempenho insatisfatório nas tarefas de edição.

Em um post no blog, a Meta enfatizou que o objetivo não deve ser apenas criar uma imagem "crível", mas focar na modificação precisa apenas dos pixels relevantes para o pedido específico do usuário. A equipe descobriu que integrar tarefas de visão computacional como instruções para modelos de geração de imagens oferece um controle incomparável no processo de edição.

Para desenvolver o Emu Edit, a Meta utilizou um conjunto abrangente de dados com 10 milhões de imagens sintetizadas, cada uma composta por uma imagem de entrada, uma descrição detalhada da tarefa e a imagem de saída desejada. Isso permite que o modelo siga de perto as instruções dos usuários enquanto mantém a integridade dos elementos não relacionados na imagem original.

Aqueles interessados em explorar as capacidades do Emu Edit podem visualizar as imagens geradas no Hugging Face. Além disso, a Meta lançou o Emu Edit Test Set, um novo benchmark projetado para facilitar novos testes de modelos de edição de imagem. Esse conjunto inclui sete diferentes tarefas de edição de imagem, como alterações de fundo e remoções de objetos, abrindo caminho para avanços nas tecnologias de edição de imagem precisa.

Sistema de IA Identifica Rápido Doenças Raras com Mínimos Recursos de Dados

OpenAI Dispensa o CEO Sam Altman: O Que Isso Significa Para o Futuro da IA

Most people like

Relume

529.6K

Capacitando designers web com soluções sem código e tecnologia de IA generativa.

Design de websites AI Developer Tools

Stable Diffusion 3

43.3K

Apresentamos nosso avançado modelo de texto para imagem, projetado para aprimorar a fidelidade e a precisão na criação de conteúdos visuais. Esta tecnologia inovadora utiliza algoritmos de ponta para transformar descrições textuais em imagens deslumbrantes e de alta qualidade, garantindo que cada detalhe se alinhe perfeitamente à visão pretendida. Experimente o futuro da narrativa visual com nosso modelo refinado que estabelece um novo padrão de clareza e expressão artística.

Modelo de texto para imagem Text to Image

FacelessVideos

13.5K

Desbloqueie o mundo dos vídeos anônimos no TikTok usando tecnologia de IA! Neste guia, você descobrirá como produzir facilmente conteúdos envolventes e anônimos que cativam os espectadores, aproveitando o poder da inteligência artificial. Diga adeus à ansiedade de aparecer na câmera e olá ao potencial criativo ilimitado. Mergulhe e aprenda como a IA pode transformar sua presença no TikTok hoje mesmo!

IA Text to Video

Translate.Video

234.3K

Translate.Video é uma plataforma líder que se especializa na tradução de vídeos em mais de 75 idiomas, tornando-se uma ferramenta essencial para comunicação global e criação de conteúdo.

tradução de vídeo Translate

Find AI tools in YBX