메타는 최신 이미지 생성 기반 모델인 Emu(Expressive Media Universe)를 출시하며 생성형 AI 분야에서 큰 발전을 이루었습니다. 이 강력한 모델은 텍스트에서 동영상을 생성하는 능력과 정교한 이미지 편집 기능을 갖추고 있습니다. Emu의 기술은 9월 메타 커넥트 행사에서 처음 공개되었으며, 메타의 소셜 미디어 플랫폼 전반에 걸쳐 다양한 생성형 AI 경험의 기초를 제공합니다. 예를 들어, 인스타그램의 이미지 편집 도구를 개선하여 사용자가 사진의 시각적 스타일이나 배경을 원활하게 변경할 수 있게 합니다. Emu는 OpenAI의 ChatGPT와 유사하게 작동하는 사용자 보조 플랫폼인 메타 AI에 통합되어 있습니다.
새로운 Emu 비디오 모델은 자연어 텍스트, 이미지 또는 이 둘의 조합을 기반으로 동영상을 생성하는 이중 기능으로 두드러집니다. 이전의 Make-a-Video와 같은 모델이 다섯 가지 확산 모델에 의존했던 것과 달리, Emu 비디오는 오로지 두 가지 모델만을 사용하여 더 간소화된 방식으로 작동합니다. 이 과정은 두 개의 주요 단계로 나뉘며, 첫째, 텍스트 프롬프트를 기반으로 이미지를 생성하고 둘째, 텍스트와 이미지 프롬프트에 의해 안내되는 동영상을 만듭니다. 이 간소한 방법론은 동영상 생성 모델의 효율적인 훈련을 가능하게 합니다. 사용자 연구에서 Emu 비디오는 Make-a-Video보다 우수한 성능을 보였으며, 96%의 참가자가 품질을 선호하고 85%가 텍스트 프롬프트에 더 충실하다고 응답했습니다. 또한, Emu 비디오는 사용자가 업로드한 이미지를 특정 텍스트 프롬프트에 따라 애니메이션화할 수 있습니다.
또한 Emu Edit의 도입으로 자연어 지시를 활용한 이미지 편집 기능이 강화되었습니다. 사용자는 이미지를 업로드하고 원하는 변경 사항을 지정할 수 있습니다. 예를 들어, 푸들을 제거하고 빨간 벤치로 교체하는 등의 요청을 입력하면 됩니다. 기존의 AI 기반 이미지 변경 도구들, 예를 들어 Stable Diffusion 기반의 ClipDrop 및 Runway의 이미지 편집 기능은 과도한 수정이나 편집 작업에서 저조한 성과를 보인다는 메타 연구진의 언급이 있었습니다.
메타는 블로그 글을 통해 "신뢰할 수 있는" 이미지를 만드는 것뿐만 아니라 사용자의 특정 요청과 관련된 픽셀만 정확하게 수정하는 데 집중해야 한다고 강조했습니다. 팀은 컴퓨터 비전 작업을 이미지 생성 모델의 지침으로 통합하는 것이 편집 과정에서 유례없는 통제를 제공한다는 것을 발견했습니다.
Emu Edit 개발을 위해 메타는 입력 이미지, 상세한 작업 설명, 목표 출력 이미지로 구성된 1천만 개의 합성 이미지로 구성된 포괄적인 데이터셋을 활용했습니다. 이를 통해 모델은 사용자 지침을 밀접하게 준수하면서 원본 이미지의 무관한 요소의 무결성을 유지할 수 있습니다.
Emu Edit의 기능을 탐색하고 싶은 분들은 Hugging Face에서 생성된 이미지를 확인할 수 있습니다. 또한 메타는 이미지 편집 모델의 추가 테스트를 촉진하기 위한 새로운 벤치마크인 Emu Edit 테스트 세트를 도입했습니다. 이 세트는 배경 변경 및 객체 제거와 같은 일곱 가지 이미지 편집 작업을 포함하여 정교한 이미지 편집 기술의 발전을 위한 기초를 마련하고 있습니다.