Apple ha presentado un modelo de inteligencia artificial de código abierto revolucionario llamado "MGIE" (MLLM-Guided Image Editing), diseñado para editar imágenes a partir de instrucciones en lenguaje natural. Aprovechando los modelos de lenguaje multimodales grandes (MLLMs), MGIE interpreta comandos de los usuarios para realizar modificaciones precisas a nivel de píxel. Destaca en diversas tareas de edición, incluidas las modificaciones al estilo de Photoshop, la optimización global y los ajustes localizados.
Este modelo innovador es fruto de la colaboración entre Apple y investigadores de la Universidad de California, Santa Bárbara, y fue presentado en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) 2024, un evento líder en investigación sobre inteligencia artificial. El documento de investigación demuestra la efectividad de MGIE en la mejora de métricas automáticas y evaluaciones humanas, asegurando, además, una eficiencia competitiva en la inferencia.
¿Cómo Funciona MGIE?
MGIE aprovecha el poder de los MLLMs, capaces de comprender tanto texto como imágenes, para refinar la edición de imágenes basada en instrucciones. Tradicionalmente, los MLLMs han sido subutilizados en tareas de edición de imágenes a pesar de sus impresionantes capacidades de comprensión multimodal.
MGIE integra MLLMs en el flujo de trabajo de edición de dos maneras principales:
1. Derivación de Instrucciones Expresivas: MGIE transforma los comandos del usuario en instrucciones concisas para la edición. Por ejemplo, ingresar “haz que el cielo sea más azul” podría generar la instrucción “aumentar la saturación de la región del cielo en un 20%.”
2. Generación de Imaginación Visual: El modelo crea una representación latente de la edición deseada, guiando ajustes a nivel de píxel. MGIE emplea un novedoso esquema de entrenamiento de extremo a extremo que combina de manera óptima la derivación de instrucciones, la representación visual y las funciones de edición.
¿Qué Puede Hacer MGIE?
MGIE es versátil y puede manejar una variedad de escenarios de edición, desde ajustes de color básicos hasta manipulaciones complejas de objetos. Sus características incluyen:
- Edición Basada en Instrucciones Expresivas: Produce instrucciones claras que mejoran tanto la calidad de la edición como la experiencia del usuario.
- Modificación al Estilo de Photoshop: Realiza ediciones comunes como recortes, cambios de tamaño, rotaciones y ajustes avanzados como reemplazo de fondo y fusión de objetos.
- Optimización Global de Fotos: Mejora la calidad general de la imagen, ajustando brillo, contraste, nitidez y aplicando efectos artísticos.
- Edición Local: Se enfoca en áreas específicas dentro de una imagen (por ejemplo, rostros, ropa), permitiendo a los usuarios modificar atributos como tamaño, color y textura.
¿Cómo Usar MGIE?
MGIE está disponible como un proyecto de código abierto en GitHub, ofreciendo a los usuarios acceso a código, datos y modelos preentrenados. Un cuaderno de demostración ilustra diversas tareas de edición, y los usuarios pueden experimentar con MGIE a través de una demo en línea alojada en Hugging Face Spaces.
Diseñado para ser fácil de usar, MGIE permite a los usuarios ingresar comandos en lenguaje natural, generando imágenes editadas e instrucciones detalladas. Los usuarios pueden proporcionar retroalimentación para refinar las ediciones o solicitar alternativas, lo que lo hace adaptable para integrarse con otras aplicaciones que requieran capacidades de edición de imágenes.
¿Por Qué es Importante MGIE?
MGIE representa un avance significativo en la edición de imágenes basada en instrucciones, un área clave para potenciar tanto la creatividad humana como la de la inteligencia artificial. Muestra las posibilidades del uso de MLLMs en la edición de imágenes, facilitando nuevas interacciones multimodales.
Más allá de su relevancia investigativa, MGIE sirve como una herramienta práctica para diversas aplicaciones, ayudando a los usuarios a crear y optimizar imágenes para contextos personales y profesionales, incluidos redes sociales, comercio electrónico y artes creativas. Empodera a los usuarios para expresar visualmente sus ideas y fomenta la exploración creativa.
Para Apple, MGIE refuerza el liderazgo creciente de la empresa en investigación y desarrollo de inteligencia artificial, mostrando sus capacidades en aprendizaje automático enfocadas en mejorar las tareas creativas cotidianas. Aunque MGIE es un logro notable, los expertos reconocen la necesidad de continuar avanzando en sistemas de IA multimodal. Sin embargo, el rápido progreso en este campo indica que AI asistiva como MGIE podría convertirse pronto en una herramienta esencial para la creatividad.