El modelo de generación de imágenes de Meta se expande: ahora incluye video y funciones mejoradas de edición de imágenes.

Home Noticias de IA El modelo de generación de imágenes de Meta se expande: ahora incluye video y funciones mejoradas de edición de imágenes.

Updated on octubre 25 2024

Meta ha dado pasos significativos en el ámbito de la inteligencia artificial generativa con el lanzamiento de su modelo de generación de imágenes mejorado, Emu (Expressive Media Universe). Este potente modelo ahora es capaz de generar videos a partir de texto y cuenta con capacidades mejoradas para la edición precisa de imágenes.

Presentada inicialmente en el evento Meta Connect de septiembre, la tecnología de Emu proporciona una base para numerosas experiencias dinámicas de IA generativa en las plataformas de redes sociales de Meta. Por ejemplo, mejora las herramientas de edición de imágenes en Instagram, permitiendo a los usuarios cambiar de manera fluida el estilo visual o el fondo de una foto. Emu está integrado en Meta AI, una nueva plataforma de asistencia al usuario que funciona de manera similar al ChatGPT de OpenAI.

El nuevo modelo Emu Video destaca por su capacidad dual para producir videos basados en texto en lenguaje natural, imágenes o una combinación de ambos. A diferencia de modelos anteriores como Make-a-Video, que utilizaban cinco modelos de difusión, Emu Video opera con un enfoque más simplificado, empleando solo dos. El proceso se desarrolla en dos pasos principales: primero, genera una imagen basada en la indicación textual, y luego crea un video guiado por ambos, textos e imágenes. Esta metodología simplificada permite un entrenamiento más eficiente de los modelos de generación de videos. En estudios con usuarios, Emu Video superó a Make-a-Video, con un 96% de los participantes prefiriendo su calidad y un 85% concordando en que se ajustaba más a sus indicaciones textuales. Además, Emu Video puede dar vida a imágenes cargadas por los usuarios, animándolas según las especificaciones de texto proporcionadas.

Otra actualización emocionante es la introducción de Emu Edit, que mejora las capacidades de edición de imágenes utilizando instrucciones en lenguaje natural. Los usuarios pueden cargar una imagen y especificar los ajustes que desean ver. Por ejemplo, pueden solicitar la eliminación de un elemento, como un caniche, y sustituirlo por otro objeto, como un banco rojo, simplemente escribiendo su solicitud. Aunque existen herramientas de modificación de imágenes impulsadas por IA, como ClipDrop, basado en Stable Diffusion, y las funciones de edición de Runway, los investigadores de Meta señalaron que los métodos actuales a menudo resultan en sobre-modificación o bajo rendimiento en tareas de edición.

En una publicación de blog, Meta destacó que el objetivo no debe ser solo crear una imagen "creíble", sino enfocarse en modificar con precisión solo los píxeles pertinentes a la solicitud específica del usuario. El equipo descubrió que integrar tareas de visión por computadora como instrucciones para modelos de generación de imágenes ofrece un control sin precedentes en el proceso de edición.

Para desarrollar Emu Edit, Meta utilizó un conjunto de datos integral de 10 millones de imágenes sintetizadas, cada una compuesta por una imagen de entrada, una descripción detallada de la tarea y la imagen de salida deseada. Esto permite que el modelo se adhiera estrechamente a las instrucciones del usuario mientras mantiene la integridad de los elementos no relacionados en la imagen original.

Los interesados en explorar las capacidades de Emu Edit pueden visualizar las imágenes generadas en Hugging Face. Además, Meta ha introducido el Emu Edit Test Set, un nuevo estándar diseñado para facilitar pruebas adicionales de modelos de edición de imágenes. Este conjunto incluye siete diferentes tareas de edición de imágenes, como alteraciones de fondo y eliminación de objetos, allanando el camino para avances en tecnologías de edición de imágenes precisas.

Sistema de IA Identifica Rápidamente Enfermedades Raras Usando Mínimos Recursos de Datos

OpenAI Despide al CEO Sam Altman: ¿Qué Significa Esto para el Futuro de la IA?

Most people like

PromptPanda

7.9K

En el actual panorama digital acelerado, la gestión efectiva de los prompts de inteligencia artificial es esencial para optimizar el flujo de trabajo. Al aprovechar el poder de la inteligencia artificial, puedes agilizar tus procesos, mejorar la productividad y aumentar la eficiencia general. Esta guía explorará estrategias y herramientas clave para dominar la gestión de prompts de IA, garantizando que tus operaciones funcionen de manera fluida y efectiva.

Gestión de indicaciones de IA Prompt

Gauthmath

14.6M

Obtén ayuda experta con tus tareas de matemáticas, con respuestas precisas y exactas sin costo alguno. Nuestros recursos confiables buscan mejorar tu comprensión y aumentar tus calificaciones.

aplicación gauth AI Chatbot

HumanizerPro AI

12.9K

¿Buscas hacer que tu texto generado por IA se sienta más cercano y natural? Nuestra herramienta AI Humanizer te permite convertir de manera fluida contenido que suena robótico en narrativas humanas y atractivas, todo sin costo alguno. Experimenta la diferencia al mejorar tu escritura con un toque personal, asegurando que tu audiencia se conecte con tu mensaje a un nivel más profundo.

humanizador AI Blog Writer

Wefaceswap

153.4K

¡Experimenta un intercambio de rostros sin interrupciones en la nube! Descubre cómo nuestra tecnología avanzada te permite transformar imágenes sin esfuerzo, mejorando tus proyectos creativos con solo unos clics.

Intercambio de rostros con IA AI Face Swap Generator

Find AI tools in YBX