A Apple Apresenta ‘MGIE’: O Inovador Modelo de IA que Revoluciona a Edição de Imagens Baseada em Instruções

A Apple lançou um inovador modelo de IA de código aberto chamado “MGIE” (Edição de Imagens Guiada por MLLM), projetado para editar imagens com base em instruções em linguagem natural. Utilizando modelos de linguagem multimodais grandes (MLLMs), o MGIE interpreta comandos do usuário para realizar modificações precisas em nível de pixel. Ele se destaca em diversas tarefas de edição, incluindo ajustes no estilo do Photoshop, otimização global e edições localizadas.

Este modelo inovador é resultado da colaboração entre a Apple e pesquisadores da Universidade da Califórnia, em Santa Barbara, e foi apresentado na Conferência Internacional sobre Aprendizado de Representações (ICLR) 2024, um importante evento de pesquisa em IA. O artigo de pesquisa demonstra a eficácia do MGIE em melhorar métricas automáticas e avaliações humanas, garantindo eficiência competitiva na inferência.

Como o MGIE Funciona?

O MGIE aproveita o poder dos MLLMs—capazes de compreender tanto texto quanto visuais—para refinar a edição de imagens baseada em instruções. Tradicionalmente, os MLLMs têm sido subutilizados em tarefas de edição de imagens, apesar de suas impressionantes capacidades de entendimento cross-modal.

O MGIE integra MLLMs no fluxo de edição de duas maneiras principais:

1. Derivação de Instruções Expressivas: O MGIE transforma comandos do usuário em instruções concisas para edição. Por exemplo, inserir “tornar o céu mais azul” pode resultar na instrução “aumentar a saturação da região do céu em 20%”.

2. Geração de Imaginação Visual: O modelo cria uma representação latente da edição desejada, guiando ajustes em nível de pixel. O MGIE utiliza um novo esquema de treinamento fim a fim que combina de maneira otimizada a derivação de instruções, representação visual e funções de edição.

O Que o MGIE Pode Fazer?

O MGIE é versátil e capaz de lidar com uma variedade de cenários de edição, desde ajustes simples de cor até manipulações complexas de objetos. Suas características incluem:

- Edição Baseada em Instruções Expressivas: Produz instruções claras que melhoram tanto a qualidade da edição quanto a experiência do usuário.

- Modificações no Estilo Photoshop: Realiza edições comuns como recorte, redimensionamento, rotação e ajustes avançados como substituição de fundo e mesclagem de objetos.

- Otimização Global de Fotos: Melhora a qualidade geral da imagem, ajustando brilho, contraste, nitidez e aplicando efeitos artísticos.

- Edição Local: Foca em áreas específicas dentro de uma imagem (por exemplo, rostos, roupas), permitindo que os usuários modifiquem atributos como tamanho, cor e textura.

Como Usar o MGIE?

O MGIE está disponível como um projeto de código aberto no GitHub, oferecendo aos usuários código, dados e modelos pré-treinados. Um notebook de demonstração ilustra várias tarefas de edição e os usuários podem experimentar o MGIE por meio de uma demonstração online hospedada no Hugging Face Spaces.

Projetado para ser amigável, o MGIE permite que os usuários insiram comandos em linguagem natural, gerando imagens editadas e instruções detalhadas. Os usuários podem fornecer feedback para aprimorar as edições ou solicitar alternativas, tornando-o adaptável para integração com outras aplicações que requerem capacidades de edição de imagem.

Por Que o MGIE é Importante?

O MGIE representa um avanço significativo na edição de imagens baseada em instruções—uma área essencial para aprimorar tanto a criatividade humana quanto a da IA. Ele demonstra as possibilidades de usar MLLMs na edição de imagens, facilitando novas interações cross-modal.

Além de sua relevância em pesquisa, o MGIE atua como uma ferramenta prática para várias aplicações, ajudando usuários a criar e otimizar imagens para contextos pessoais e profissionais, incluindo redes sociais, e-commerce e artes criativas. Ele capacita os usuários a expressarem suas ideias visualmente e incentiva a exploração criativa.

Para a Apple, o MGIE reforça o crescente papel da empresa na pesquisa e desenvolvimento de IA, destacando suas capacidades em aprendizado de máquina com foco no aprimoramento de tarefas criativas do dia a dia. Embora o MGIE seja uma conquista notável, especialistas reconhecem a necessidade contínua de avanços em sistemas de IA multimodal. Entretanto, o rápido progresso neste campo indica que IAs assistivas como o MGIE podem em breve se tornar ferramentas essenciais para a criatividade.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles