기업들이 생성적 AI의 잠재력을 더욱 활용하면서, 더 발전된 솔루션 개발에 박차를 가하고 있습니다. 그 중 주목할 만한 예가 구글, 와이즈만 과학 연구소, 텔아비브 대학교의 연구자들에 의해 개발된 공간-시간 확산 모델 '루미에르'입니다. 이는 현실감 있는 비디오 생성을 개선하기 위해 고안되었습니다.
최근 발표된 논문은 루미에르의 혁신적인 기술을 설명하였으나, 아직 공공 테스트는 이루어지지 않고 있습니다. 출시가 이루어지면 구글은 Runway, Pika, Stability AI와 같은 기업들이 지배하는 AI 비디오 분야에서 강력한 경쟁자로 부상할 수 있습니다.
루미에르의 기능은 무엇인가요?
'루미에르'는 '빛'에서 유래된 비디오 확산 모델로, 현실적이면서도 스타일화된 비디오를 생성하도록 설계되었습니다. 사용자는 자연어로 텍스트 설명을 입력하여 그에 맞는 비디오를 만들 수 있습니다. 또한 정지 이미지를 업로드하고 텍스트 프롬프트를 적용하여 이를 동적 비디오로 변환할 수 있습니다. 주요 기능으로는 특정 개체를 텍스트 명령에 따라 삽입하는 인페인팅, 특정 장면 부분에 움직임을 추가하는 시네마그래프, 선택한 참조 이미지 스타일로 비디오를 생성할 수 있는 스타일화 생성이 있습니다.
연구자들은 “최첨단 텍스트-비디오 생성 결과를 보여주며, 이미지-비디오, 비디오 인페인팅, 스타일화 생성 등 광범위한 콘텐츠 제작 작업과 비디오 편집 애플리케이션을 용이하게 한다”고 밝혔습니다.
성능 및 방법론
업계에는 Runway와 Pika와 같은 유사한 기능이 존재하지만, 저자들은 현재 모델들이 종종 연속성 문제에 직면한다고 주장합니다. 보통 기본 모델이 주요 프레임을 생성한 후 시간적 초해상도(TSR) 모델이 공백을 메우는 형태로 진행되므로, 비디오 지속 시간과 움직임의 현실감 제한이 발생할 수 있습니다.
루미에르는 Space-Time U-Net 아키텍처를 활용하여 비디오의 전체 시간 지속을 한 번에 생성함으로써 이 문제를 해결합니다. "공간적 및 시간적 다운샘플링 및 업샘플링을 모두 활용하고, 사전 훈련된 텍스트-이미지 확산 모델을 기반으로 우리 방법은 여러 공간-시간 스케일에서 비디오를 처리해 풀프레임 속도, 저해상도 비디오를 생성하도록 학습합니다,"라고 연구자들은 설명했습니다.
3천만 개의 비디오와 해당하는 텍스트 캡션 데이터셋으로 훈련된 루미에르는 16fps에서 80프레임을 생성할 수 있지만, 데이터셋 출처는 불확실합니다.
다른 AI 비디오 모델과의 비교
Pika, Runway, Stability AI의 모델과 비교했을 때, 연구자들은 경쟁자들이 높은 프레임당 시각적 품질을 달성했지만, 짧고 4초 분량의 출력에서 동적 움직임이 부족하여 거의 정적인 클립이 되었다고 지적했습니다. ImagenVideo 역시 제한된 움직임 품질을 보였습니다.
"반면, 우리 방법은 더 큰 움직임의 강도를 유지하면서도 시간적 일관성과 전체 품질을 유지하여 5초 비디오를 생성합니다,"라고 연구자들은 보고했습니다. 사용자 설문조사는 텍스트 및 이미지-비디오 생성에서 루미에르를 다른 모델보다 선호한다고 나타났습니다.
루미에르는 AI 비디오 분야에서 유망한 발전을 의미하지만, 아직 테스트 진행이 되지 않고 있다는 점은 주목할 필요가 있습니다. 연구자들은 여러 샷이나 매끄러운 장면 전환을 생성할 수 없는 한계를 인정하며, 이는 향후 탐구가 필요한 분야로 지적하였습니다.