Apple은 자연어 지침을 기반으로 이미지를 편집하는 혁신적인 오픈 소스 AI 모델인 “MGIE”(MLLM-Guided Image Editing)를 선보였습니다. MGIE는 다중 모달 대형 언어 모델(MLLM)을 활용하여 사용자 명령을 해석하고 픽셀 수준의 정밀한 수정 작업을 수행합니다. 이 모델은 포토샵 스타일 편집, 전반적인 최적화, 국소적 편집 등 다양한 편집 작업에서 탁월한 성능을 발휘합니다.
MGIE는 Apple과 캘리포니아 대학교 산타 바바라 연구자들과의 협력으로 개발되었으며, AI 연구의 주요 행사인 2024 국제 표현 학습 회의(ICLR)에서 발표되었습니다. 연구 논문은 MGIE가 자동 평가 메트릭과 인간 평가를 개선하면서도 경쟁력 있는 추론 효율성을 유지한다는 사실을 입증했습니다.
MGIE는 어떻게 작동하나요?
MGIE는 텍스트와 시각적 정보를 모두 이해할 수 있는 MLLM의 힘을 활용하여 지침 기반 이미지를 편집합니다. 전통적으로 MLLM은 교차 모달 이해에서 뛰어난 능력을 보였음에도 불구하고 이미지 편집 작업에서는 활용이 부족했습니다. MGIE는 두 가지 주요 방법으로 MLLM을 편집 워크플로우에 통합합니다:
1. 표현력 있는 지침 도출: MGIE는 사용자 프롬프트를 간결한 편집 지침으로 변환합니다. 예를 들어, “하늘을 더 파랗게”라는 입력은 “하늘 영역의 채도를 20% 증가시키세요”라는 지침으로 이어질 수 있습니다.
2. 시각적 상상력 생성: 모델은 원하는 편집에 대한 잠재적 표현을 생성하여 픽셀 수준의 조정을 안내합니다. MGIE는 지침 도출, 시각적 표현, 편집 기능을 최적의 방식으로 결합하는 새로운 엔드-투-엔드 훈련 체계를 채택하고 있습니다.
MGIE가 할 수 있는 일은?
MGIE는 기본적인 색상 조정부터 복잡한 객체 조작에 이르기까지 다양한 편집 시나리오를 처리할 수 있는 다재다능한 도구입니다. 주요 기능은 다음과 같습니다:
- 표현력 있는 지침 기반 편집: 편집 품질과 사용자 경험을 모두 향상시키는 명확한 지침을 생성합니다.
- 포토샵 스타일 수정: 크롭, 리사이즈, 회전 같은 일반적인 편집과 배경 교체, 객체 혼합 같은 고급 조정을 수행합니다.
- 전반적인 사진 최적화: 이미지의 밝기, 대비, 선명도를 조정하고 예술적 효과를 적용하여 전체 이미지 품질을 향상시킵니다.
- 국소 편집: 얼굴이나 의류와 같은 특정 영역을 타겟으로 하여 크기, 색상, 질감 등을 수정할 수 있습니다.
MGIE의 사용 방법은?
MGIE는 GitHub에서 오픈 소스 프로젝트로 제공되어 코드, 데이터 및 사전 훈련된 모델을 사용자에게 제공합니다. 다양한 편집 작업을 보여주는 데모 노트북이 마련되어 있으며, 사용자는 Hugging Face Spaces에서 호스팅되는 온라인 데모를 통해 MGIE를 실험할 수 있습니다.
사용자 친화성을 고려하여 설계된 MGIE는 자연어 명령을 입력받고 편집된 이미지와 상세 지침을 생성합니다. 사용자는 수정 작업을 개선하기 위해 피드백을 제공하거나 대안을 요청할 수 있어 이미지 편집 기능이 필요한 다른 애플리케이션과의 통합에 적합합니다.
MGIE의 중요성은?
MGIE는 AI와 인간의 창의성을 향상시키기 위한 필수 영역인 지침 기반 이미지 편집의 중요한 발전을 나타냅니다. MLLM을 이미지 편집에 활용할 수 있는 가능성을 보여주며 새로운 교차 모달 상호 작용을 촉진합니다.
연구적인 의의 외에도 MGIE는 소셜 미디어, 전자상거래, 창의적 예술 등 개인적 및 전문적 맥락에서 이미지를 생성하고 최적화하는 데 유용한 도구로 작용합니다. 사용자가 시각적으로 아이디어를 표현하도록 돕고 창의적 탐구를 장려합니다.
Apple에게 MGIE는 AI 연구 및 개발에서 회사의 리더십을 강화하고 일상적인 창의적 과제를 향상시키는 기계 학습 능력의 확대를 보여줍니다. MGIE는 주목할 만한 성과지만, 전문가들은 다중 모달 AI 시스템에서의 지속적인 발전 필요성을 인정하고 있습니다. 그럼에도 불구하고 이 분야의 빠른 발전은 MGIE와 같은 보조 AI가 곧 창의성을 위한 필수 도구가 될 수 있다는 가능성을 시사합니다.