알리바바 지능형 컴퓨팅 연구소의 연구자들이 “EMO” (Emote Portrait Alive)를 공개했습니다. 이 혁신적인 AI 시스템은 단일 초상화 사진을 애니메이션화하여 실제처럼 사람의 말이나 노래하는 모습을 담은 동영상을 생성할 수 있습니다. arXiv에 발표된 연구 논문에 따르면, EMO는 제공된 오디오 트랙의 뉘앙스에 잘 맞는 유동적이고 표현력 있는 얼굴 움직임과 머리 자세를 생성합니다. 이는 오디오 기반의 대화형 비디오 생성에서 중요한 발전을 의미하며, 오랫동안 AI 연구자들에게 도전 과제가 되어왔습니다.
"전통적인 기술은 인간의 다양한 표정과 개별 얼굴 스타일의 독특함을 정확히 포착하는 데 어려움을 겪습니다." 라고 주 저자 린루이 티안은 설명했습니다. "이러한 문제를 해결하기 위해 EMO라는 새로운 프레임워크를 제안합니다. EMO는 3D 모델이나 얼굴 랜드마크 없이 직접 오디오에서 비디오로 변환하는 접근 방식을 사용합니다."
직접 오디오-비디오 변환
EMO 시스템은 현실적인 합성 이미지를 생성하는 데 강력한 AI 기술인 확산 모델을 활용합니다. 연구자들은 EMO를 연설, 영화, TV 쇼 및 음악 공연에서 수집된 250시간 이상의 대화 비디오 데이터셋으로 훈련시켰습니다. 이전의 3D 얼굴 모델이나 혼합 형태에 의존하는 방법과 달리, EMO는 오디오 파형을 직접 비디오 프레임으로 변환합니다. 이는 자연스러운 말하기와 연관된 미세한 움직임과 고유한 특성을 포착할 수 있는 기능을 제공합니다.
우수한 비디오 품질과 표현력
연구 결과에 따르면, EMO는 비디오 품질, 신원 보존 및 표현력에서 기존 최첨단 방법을 크게 능가합니다. 사용자 연구 결과, EMO가 생성한 비디오는 경쟁 시스템보다 더 자연스럽고 감정적이라고 인식되었습니다.
실감 나는 노래 애니메이션
대화 비디오뿐만 아니라 EMO는 노래하는 초상화를 애니메이션화하여 음성 성과에 맞춰 정확한 입 모양과 표현력 있는 얼굴 특징을 생성할 수 있습니다. 이 시스템은 입력 오디오의 길이에 따라 임의의 길이의 동영상을 생성할 수 있습니다. "실험 결과는 EMO가 설득력 있는 말하기 비디오뿐만 아니라 다양한 스타일의 노래 애니메이션도 생성할 수 있음을 보여줍니다. 이는 표현력과 현실성 면에서 기존 방법론을 크게 초월합니다."라고 연구보고서에 나와 있습니다.
EMO가 소개한 발전은 개인화된 비디오 콘텐츠가 단일 사진과 오디오 클립으로 쉽게 합성될 수 있는 미래를 암시합니다. 그럼에도 불구하고, 이러한 기술이 사칭이나 잘못된 정보 전파에 악용될 가능성에 대한 윤리적 우려가 남아 있습니다. 연구자들은 합성 비디오 탐지를 위한 방법을 탐색하는 데 전념하고 있습니다.