마이크로소프트, VASA-1 공개: 음성과 노래로 생동감 있는 인물 헤드샷을 구현하는 AI 프레임워크

Home AI 뉴스 마이크로소프트, VASA-1 공개: 음성과 노래로 생동감 있는 인물 헤드샷을 구현하는 AI 프레임워크

마이크로소프트는 정적인 인간 얼굴 이미지를 동적인 대화 및 노래 비디오로 변환하는 혁신적인 프레임워크인 VASA-1을 소개하며 AI 기반 콘텐츠 생성의 획기적인 발전을 이루었습니다. 이 프로젝트는 최소한의 입력으로 AI 생성 콘텐츠의 주목할 만한 변화를 보여줍니다: 단 한 장의 정지 이미지와 오디오 파일만으로 가능합니다. VASA-1은 이러한 이미지를 생동감 있게 만들어 내며 사실적인 입술 동기화, 표정, 머리 움직임을 가능하게 합니다.

AI 에이전트의 주목

마이크로소프트는 VASA-1의 다양한 기능 예시를 선보였으며, 그 중에는 모나리자가 랩을 하는 인상적인 영상이 포함되었습니다. 그러나 회사는 딥페이크 기술의 잠재적 위험도 인식하고 있으며, VASA-1이 현재 연구 시연일 뿐 상업화할 계획이 없음을 명확히 했습니다.

정지 이미지를 생명력 있게

오늘날의 AI 비디오 콘텐츠 도구는 유익한 목적과 해로운 목적 모두를 위해 사용될 수 있습니다. 매력적인 광고를 생성할 수 있지만, 손해를 끼치는 딥페이크를 만드는 데 악용될 수도 있습니다. 흥미롭게도, 딥페이크 기술의 긍정적인 사용 사례도 있습니다; 예를 들어, 아티스트가 자신의 디지털 초상을 홍보 목적으로 생성하도록 동의할 수 있습니다. VASA-1은 “가상 캐릭터의 생동감 있는 대화하는 얼굴을 생성함으로써” 이 미세한 경계를 넘고 있으며, 비주얼 정서 기술(VAS)을 더합니다.

마이크로소프트에 따르면, 이 모델은 사람의 정지 이미지와 말하는 오디오 파일을 활용해 입술 움직임과 오디오를 동기화한 비디오를 생성하고, 다양한 감정, 미세한 표정, 자연스러운 머리 움직임을 포함할 수 있습니다. 회사는 단일 얼굴 이미지가 개인의 말하는 또는 노래하는 비디오로 변환되는 과정을 설명하는 사례를 제공했습니다.

“핵심 혁신은 얼굴 잠재 공간에서 작동하는 통합된 얼굴 동역학 및 머리 움직임 생성 모델과 비디오를 사용하여 표현적이고 분리된 얼굴 잠재 공간을 생성하는 것입니다,” 연구자들은 회사 웹사이트에서 설명했습니다.

사용자 제어 기능

VASA-1은 사용자가 생성된 콘텐츠에 대해 세밀한 제어를 가능하게 하여, 간단한 슬라이더를 통해 움직임 시퀀스, 눈 방향, 머리 위치 및 감정 표현을 조정할 수 있습니다. 또한 예술 이미지, 노래 오디오 및 비영어 음성 등 다양한 종류의 콘텐츠에도 사용할 수 있습니다.

VASA의 미래

마이크로소프트의 샘플은 사실적으로 보이지만, 일부 클립에서는 AI 생성의 특성이 드러나 툭툭 끊기는 움직임이 포착됩니다. 이 접근 방식은 512 x 512 픽셀 영상과 오프라인 배치 처리에서 45프레임, 온라인 스트리밍에서 40프레임 초당의 비디오를 생성합니다. 마이크로소프트는 VASA-1이 새로운 기준에 기반한 광범위한 테스트를 통해 기존 방법보다 우수하다고 주장했습니다.

그러나 개인을 잘못 표현할 가능성을 인식하는 것이 중요하며, 이 때문에 마이크로소프트는 VASA-1을 상업적 제품이나 API로 출시하지 않기로 결정했습니다. 회사는 모든 데모 클립에 사용된 얼굴 이미지가 AI 생성으로, 이 기술이 위장 콘텐츠가 아닌 가상 AI 아바타를 위한 긍정적인 비주얼 정서 기술을 주로 목표로 하고 있음을 강조했습니다.

장기적으로 마이크로소프트는 VASA-1이 인간의 움직임과 감정을 복제하는 사실적인 아바타를 탄생시키는 데 기여할 것이라고 예견하고 있습니다. 이러한 발전은 교육의 형평성을 높이고 의사소통에 어려움을 겪는 이들에게 접근성을 향상시키며, 필요로 하는 개인에게 동반자나 치료적 지원을 제공할 수 있는 가능성을 제시합니다.

메타, 메갈로돈 LLM 출시로 트랜스포머 아키텍처에 도전하다

Llama 3가 메타의 새로운 독립형 AI 챗봇 출시와 함께 등장했습니다.

Most people like

VMagic

7.3K

당신의 창의력을 발휘할 수 있도록 도와주는 비디오 제작 플랫폼에 오신 것을 환영합니다. 강력한 도구들이 마련되어 있어 콘텐츠를 한층 끌어올릴 수 있습니다. 경험이 많은 창작자든 이제 막 시작하는 분이든, 직관적인 인터페이스와 고급 편집 기능을 통해 쉽게 멋진 비디오를 제작할 수 있습니다. 혁신적인 커뮤니티에 합류하여 오늘 당신의 비전을 실현해 보세요!

비디오 제작 플랫폼 Text to Image

FunFun Art

AI 이미지 및 비디오 생성의 흥미로운 세계를 발견하세요!

딥누드 Text to Image

ResearchRabbit

415.9K

리서치래빗을 만나보세요. 연구자들을 위한 문헌 탐색과 협업을 강화하는 혁신적인 앱입니다. 이 강력한 도구는 관련 학술 자원을 찾는 과정을 단순화하여 학자들이 보다 쉽게 연결하고 통찰을 공유할 수 있도록 도와줍니다.

기타 AI Reviews Assistant

Decoritt

60.4K

혁신적인 AI 홈 디자인 플랫폼으로 미래의 인테리어 디자인을 발견하세요. 이 강력한 도구는 인공지능의 최신 발전을 활용하여 여러분의 꿈의 생활 공간을 손쉽게 생성하고 시각화하는 데 도움을 줍니다. 전문 디자이너든 DIY 애호가든, 저희 플랫폼은 여러분의 고유한 스타일과 요구에 맞춘 맞춤형 솔루션을 제공합니다. 직관적인 기능과 스마트한 디자인 추천으로 여러분의 집을 변화시키는 일이 그 어느 때보다 쉽고 즐거워졌습니다. 우리의 AI 기술이 인테리어 디자인에 대한 접근 방식을 어떻게 재정의할 수 있는지 함께 탐험해 보세요.

AI 인테리어 디자인 AI Photo & Image Generator

Find AI tools in YBX