메타의 이미지 생성 모델 확장: 비디오 및 향상된 이미지 편집 기능 추가

Home AI 뉴스 메타의 이미지 생성 모델 확장: 비디오 및 향상된 이미지 편집 기능 추가

메타는 최신 이미지 생성 기반 모델인 Emu(Expressive Media Universe)를 출시하며 생성형 AI 분야에서 큰 발전을 이루었습니다. 이 강력한 모델은 텍스트에서 동영상을 생성하는 능력과 정교한 이미지 편집 기능을 갖추고 있습니다. Emu의 기술은 9월 메타 커넥트 행사에서 처음 공개되었으며, 메타의 소셜 미디어 플랫폼 전반에 걸쳐 다양한 생성형 AI 경험의 기초를 제공합니다. 예를 들어, 인스타그램의 이미지 편집 도구를 개선하여 사용자가 사진의 시각적 스타일이나 배경을 원활하게 변경할 수 있게 합니다. Emu는 OpenAI의 ChatGPT와 유사하게 작동하는 사용자 보조 플랫폼인 메타 AI에 통합되어 있습니다.

새로운 Emu 비디오 모델은 자연어 텍스트, 이미지 또는 이 둘의 조합을 기반으로 동영상을 생성하는 이중 기능으로 두드러집니다. 이전의 Make-a-Video와 같은 모델이 다섯 가지 확산 모델에 의존했던 것과 달리, Emu 비디오는 오로지 두 가지 모델만을 사용하여 더 간소화된 방식으로 작동합니다. 이 과정은 두 개의 주요 단계로 나뉘며, 첫째, 텍스트 프롬프트를 기반으로 이미지를 생성하고 둘째, 텍스트와 이미지 프롬프트에 의해 안내되는 동영상을 만듭니다. 이 간소한 방법론은 동영상 생성 모델의 효율적인 훈련을 가능하게 합니다. 사용자 연구에서 Emu 비디오는 Make-a-Video보다 우수한 성능을 보였으며, 96%의 참가자가 품질을 선호하고 85%가 텍스트 프롬프트에 더 충실하다고 응답했습니다. 또한, Emu 비디오는 사용자가 업로드한 이미지를 특정 텍스트 프롬프트에 따라 애니메이션화할 수 있습니다.

또한 Emu Edit의 도입으로 자연어 지시를 활용한 이미지 편집 기능이 강화되었습니다. 사용자는 이미지를 업로드하고 원하는 변경 사항을 지정할 수 있습니다. 예를 들어, 푸들을 제거하고 빨간 벤치로 교체하는 등의 요청을 입력하면 됩니다. 기존의 AI 기반 이미지 변경 도구들, 예를 들어 Stable Diffusion 기반의 ClipDrop 및 Runway의 이미지 편집 기능은 과도한 수정이나 편집 작업에서 저조한 성과를 보인다는 메타 연구진의 언급이 있었습니다.

메타는 블로그 글을 통해 "신뢰할 수 있는" 이미지를 만드는 것뿐만 아니라 사용자의 특정 요청과 관련된 픽셀만 정확하게 수정하는 데 집중해야 한다고 강조했습니다. 팀은 컴퓨터 비전 작업을 이미지 생성 모델의 지침으로 통합하는 것이 편집 과정에서 유례없는 통제를 제공한다는 것을 발견했습니다.

Emu Edit 개발을 위해 메타는 입력 이미지, 상세한 작업 설명, 목표 출력 이미지로 구성된 1천만 개의 합성 이미지로 구성된 포괄적인 데이터셋을 활용했습니다. 이를 통해 모델은 사용자 지침을 밀접하게 준수하면서 원본 이미지의 무관한 요소의 무결성을 유지할 수 있습니다.

Emu Edit의 기능을 탐색하고 싶은 분들은 Hugging Face에서 생성된 이미지를 확인할 수 있습니다. 또한 메타는 이미지 편집 모델의 추가 테스트를 촉진하기 위한 새로운 벤치마크인 Emu Edit 테스트 세트를 도입했습니다. 이 세트는 배경 변경 및 객체 제거와 같은 일곱 가지 이미지 편집 작업을 포함하여 정교한 이미지 편집 기술의 발전을 위한 기초를 마련하고 있습니다.

AI 시스템, 최소한의 데이터 자원으로 희귀 질병을 신속하게 식별하다.

OpenAI, CEO 샘 알트먼 해임: AI 미래에 대한 의미는?

Most people like

Knowt

AI 기반 학습 앱으로 학습 잠재력을 최대한 발휘하세요. 이 앱은 인터랙티브 플래시카드, 포괄적인 학습 가이드, 효과적인 연습 테스트를 제공합니다. 성공을 위해 설계된 맞춤형 도구로 학습 세션을 향상시키고 기억력을 높이세요.

AI 기반 플래시카드 AI Education Assistant

Araby.ai

276.1K

Araby.ai를 만나보세요. 아라비아어 사용자에게 맞춤화된 고급 AI 도구를 통해 여러 산업을 혁신하세요. 아랍어를 사용하는 여러분을 위한 혁신적인 솔루션으로 기술의 미래를 경험해 보세요.

아랍어 AI AI Productivity Tools

Autify

40.1K

최첨단 AI 기반 소프트웨어 테스트 자동화 플랫폼을 소개합니다. 이 플랫폼은 소프트웨어 테스트를 관리하고 실행하는 방식을 혁신적으로 변화시킵니다. 인공지능의 힘을 활용하여 테스트 프로세스를 간소화하고, 수작업의 노력을 줄이면서 정확성과 효율성을 높입니다. 매끄러운 소프트웨어 테스트의 잠재력을 열어주고, 혁신적인 솔루션으로 개발 주기를 향상시키세요. 더 빠른 릴리스, 향상된 제품 품질, 그리고 생산성의 획기적인 증가를 경험해보세요.

AI 기반 테스트 플랫폼 Other

xTransfer

173.5K

실시간 환율 변환기를 사용하여 미국 달러(USD)와 중국 위안(CNY) 간의 최신 환율을 확인하세요. 즉시 금액을 변환하고, 정확하고 실시간 데이터를 통해 정보에 기반한 재정 결정을 내리세요.

환율 변환기 AI Customer Service Assistant

Find AI tools in YBX