마이크로소프트의 최신 AI 비디오 모델, 궤적 기반 생성 기술의 혁신을 이끌다

AI 기업들은 비디오 생성 기술을 발전시키기 위해 치열한 경쟁을 벌이고 있습니다. 최근 Stability AI와 Pika Labs와 같은 주요 기업들이 텍스트와 이미지 프롬프트를 기반으로 비디오를 생성하는 모델을 출시했습니다. 이러한 발전을 바탕으로 Microsoft는 비디오 제작에서 더 큰 제어 기능을 제공하는 새로운 모델인 DragNUWA를 선보였습니다.

DragNUWA는 전통적인 텍스트와 이미지 입력 방식을 개선하여 궤적 기반 생성을 도입합니다. 이를 통해 사용자는 특정 경로를 따라 객체나 전체 비디오 프레임을 조작할 수 있으며, 이는 비디오 제작의 의미적, 공간적 및 시간적 요소에 대한 정밀한 제어를 가능하게 합니다. 또한 고품질의 결과물을 보장합니다.

Microsoft는 이 모델의 가중치와 데모를 오픈 소스화하여 커뮤니티가 실험할 수 있도록 초대했습니다. 그러나 이는 연구 프로젝트로 남아 있으며, 아직 완전히 다듬어지지 않았음을 인식하는 것이 중요합니다.

Microsoft DragNUWA의 독창성은 무엇인가?

AI 기반 비디오 생성은 일반적으로 텍스트, 이미지 또는 궤적 입력에 의존하지만, 이러한 방법은 종종 세부적인 제어를 제공하는 데 어려움을 겪습니다. 예를 들어, 텍스트와 이미지에만 의존할 경우 비디오에 중요한 미세한 움직임 세부 사항을 놓칠 수 있으며, 언어만으로는 추상 개념에 대한 모호함을 초래할 수 있습니다.

2023년 8월, Microsoft AI 팀은 DragNUWA를 소개했습니다. 이 모델은 이미지, 텍스트 및 궤적 입력을 통합하여 비디오 제어를 정밀하게 가능하게 하는 오픈 도메인 확산 기반 비디오 생성 모델입니다. 사용자는 특정 텍스트, 이미지 및 궤적을 정의하여 결과 비디오의 카메라 움직임 및 객체 움직임과 같은 다양한 요소를 관리할 수 있습니다.

예를 들어, 사용자는 물 위에 있는 배의 이미지를 업로드하고 "호수에서 항해하는 배"라는 텍스트 프롬프트를 결합한 뒤, 배의 이동 방향을 제공할 수 있습니다. 이러한 입력은 배가 지정된 대로 항해하는 비디오를 생성하며, 궤적이 움직임의 세부 사항을 명확히 하고, 언어가 미래의 객체를 설명하며, 이미지가 주제를 구별하게 합니다.

DragNUWA의 실제 적용

DragNUWA의 초기 버전 1.5가 Hugging Face에 출시되었으며, Stability AI의 Stable Video Diffusion 모델을 활용하여 정의된 경로를 기반으로 이미지를 애니메이션화합니다. 이 기술이 발전함에 따라 비디오 생성 및 편집을 간소화할 것으로 기대됩니다. 배경을 변형하고 이미지를 애니메이션화하며 단순한 명령으로 움직임을 지시하는 모습을 상상해보세요.

AI 애호가들은 이 진전을 창의적인 AI의 중요한 발걸음으로 보고 있습니다. 그러나 모델의 실제 성능은 아직 지켜봐야 할 부분입니다. 초기 테스트에서는 DragNUWA가 다양한 드래그 궤적을 따라 카메라 움직임과 객체 움직임을 정확하게 실행할 수 있음을 보여주고 있습니다.

“DragNUWA는 복잡한 곡선 궤적을 지원하여 객체가 복잡한 경로를 따라 이동할 수 있습니다. 또한 가변 궤적 길이를 지원하여 더 큰 움직임 진폭을 가능하게 합니다. DragNUWA는 여러 객체의 궤적을 동시에 제어할 수 있습니다. 우리가 아는 한, 다른 어떤 비디오 생성 모델도 이러한 궤적 제어에 도달한 바가 없어, DragNUWA가 비디오 생성 기술을 발전시키는 잠재력을 강조합니다.”라며 Microsoft 연구자들이 논문에서 밝힙니다.

이번 연구는 AI 비디오 분야의 끊임없이 확장되는 연구에 기여하고 있습니다. 최근 Pika Labs는 ChatGPT와 유사한 텍스트에서 비디오로 변환하는 인터페이스로 주목을 받으며, 다양한 커스터마이징 옵션을 갖춘 고품질 짧은 비디오를 생성하고 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles