마이크로소프트, VASA-1 공개: 음성과 노래로 생동감 있는 인물 헤드샷을 구현하는 AI 프레임워크

마이크로소프트는 정적인 인간 얼굴 이미지를 동적인 대화 및 노래 비디오로 변환하는 혁신적인 프레임워크인 VASA-1을 소개하며 AI 기반 콘텐츠 생성의 획기적인 발전을 이루었습니다. 이 프로젝트는 최소한의 입력으로 AI 생성 콘텐츠의 주목할 만한 변화를 보여줍니다: 단 한 장의 정지 이미지와 오디오 파일만으로 가능합니다. VASA-1은 이러한 이미지를 생동감 있게 만들어 내며 사실적인 입술 동기화, 표정, 머리 움직임을 가능하게 합니다.

AI 에이전트의 주목

마이크로소프트는 VASA-1의 다양한 기능 예시를 선보였으며, 그 중에는 모나리자가 랩을 하는 인상적인 영상이 포함되었습니다. 그러나 회사는 딥페이크 기술의 잠재적 위험도 인식하고 있으며, VASA-1이 현재 연구 시연일 뿐 상업화할 계획이 없음을 명확히 했습니다.

정지 이미지를 생명력 있게

오늘날의 AI 비디오 콘텐츠 도구는 유익한 목적과 해로운 목적 모두를 위해 사용될 수 있습니다. 매력적인 광고를 생성할 수 있지만, 손해를 끼치는 딥페이크를 만드는 데 악용될 수도 있습니다. 흥미롭게도, 딥페이크 기술의 긍정적인 사용 사례도 있습니다; 예를 들어, 아티스트가 자신의 디지털 초상을 홍보 목적으로 생성하도록 동의할 수 있습니다. VASA-1은 “가상 캐릭터의 생동감 있는 대화하는 얼굴을 생성함으로써” 이 미세한 경계를 넘고 있으며, 비주얼 정서 기술(VAS)을 더합니다.

마이크로소프트에 따르면, 이 모델은 사람의 정지 이미지와 말하는 오디오 파일을 활용해 입술 움직임과 오디오를 동기화한 비디오를 생성하고, 다양한 감정, 미세한 표정, 자연스러운 머리 움직임을 포함할 수 있습니다. 회사는 단일 얼굴 이미지가 개인의 말하는 또는 노래하는 비디오로 변환되는 과정을 설명하는 사례를 제공했습니다.

“핵심 혁신은 얼굴 잠재 공간에서 작동하는 통합된 얼굴 동역학 및 머리 움직임 생성 모델과 비디오를 사용하여 표현적이고 분리된 얼굴 잠재 공간을 생성하는 것입니다,” 연구자들은 회사 웹사이트에서 설명했습니다.

사용자 제어 기능

VASA-1은 사용자가 생성된 콘텐츠에 대해 세밀한 제어를 가능하게 하여, 간단한 슬라이더를 통해 움직임 시퀀스, 눈 방향, 머리 위치 및 감정 표현을 조정할 수 있습니다. 또한 예술 이미지, 노래 오디오 및 비영어 음성 등 다양한 종류의 콘텐츠에도 사용할 수 있습니다.

VASA의 미래

마이크로소프트의 샘플은 사실적으로 보이지만, 일부 클립에서는 AI 생성의 특성이 드러나 툭툭 끊기는 움직임이 포착됩니다. 이 접근 방식은 512 x 512 픽셀 영상과 오프라인 배치 처리에서 45프레임, 온라인 스트리밍에서 40프레임 초당의 비디오를 생성합니다. 마이크로소프트는 VASA-1이 새로운 기준에 기반한 광범위한 테스트를 통해 기존 방법보다 우수하다고 주장했습니다.

그러나 개인을 잘못 표현할 가능성을 인식하는 것이 중요하며, 이 때문에 마이크로소프트는 VASA-1을 상업적 제품이나 API로 출시하지 않기로 결정했습니다. 회사는 모든 데모 클립에 사용된 얼굴 이미지가 AI 생성으로, 이 기술이 위장 콘텐츠가 아닌 가상 AI 아바타를 위한 긍정적인 비주얼 정서 기술을 주로 목표로 하고 있음을 강조했습니다.

장기적으로 마이크로소프트는 VASA-1이 인간의 움직임과 감정을 복제하는 사실적인 아바타를 탄생시키는 데 기여할 것이라고 예견하고 있습니다. 이러한 발전은 교육의 형평성을 높이고 의사소통에 어려움을 겪는 이들에게 접근성을 향상시키며, 필요로 하는 개인에게 동반자나 치료적 지원을 제공할 수 있는 가능성을 제시합니다.

Most people like

Find AI tools in YBX