구글의 인상적인 새로운 멀티모달 AI 비디오 제작기: VideoPoet를 만나보세요!

어제 나는 Google이 첫 시도에서 AI 제품을 성공적으로 출시할 수 있을지 고민해보았습니다. VideoPoet의 공개로 그 답을 찾은 것 같습니다.

이번 주, Google은 다양한 비디오 생성 작업을 위해 31명의 연구원 팀이 개발한 혁신적인 대형 언어 모델(LLM)인 VideoPoet를 소개했습니다. 이 LLM의 개발 과정은 특히 주목할 만합니다. 연구팀의 사전 검토 연구 논문에 따르면, "대부분의 기존 모델은 현재 비디오 생성에서 가장 성과가 좋은 방법으로 평가받는 확산 기반 방법을 사용합니다. 일반적으로 이러한 모델은 Stable Diffusion과 같은 사전 훈련된 이미지 모델로 시작하여, 개별 프레임의 고충실도 이미지를 생성하고 프레임 간의 시간적 일관성을 강화하기 위해 추가 조정합니다."

반면, Google의 연구팀은 텍스트 및 코드 생성에 일반적으로 사용되는 트랜스포머 아키텍처를 기반으로 하는 LLM을 선택했습니다(예: ChatGPT, Claude 2, Llama 2). 그러나 VideoPoet는 비디오 생성에 특화되어 훈련되었습니다.

프리트레이닝의 중요성

VideoPoet의 성공은 공개 인터넷과 그 외에서 수집한 2억 7천만 개의 동영상과 10억 개 이상의 텍스트-이미지 쌍에 대한 광범위한 사전 훈련에 기반합니다. 이 데이터는 모델이 활용할 수 있는 텍스트 임베딩, 시각적 토큰, 오디오 토큰으로 변환되었습니다.

결과는 인상적이며, Google 투자인 Pika와 같은 소비자 지향 비디오 생성 도구와 비교할 때 더욱 두드러집니다.

더 긴, 높은 품질의 클립과 향상된 모션

Google Research는 LLM 기반 접근 방식이 더 긴 고품질 클립을 생성할 수 있게 하여, 긴 시퀀스에서 일관된 모션을 유지하는 데 어려움을 겪는 확산 기반 비디오 생성 AI의 현재 한계를 극복한다고 주장합니다. Google Research 블로그 포스트에서 Dan Kondratyuk와 David Ross는 “비디오 생성의 현재 병목 현상 중 하나는 일관된 대형 모션을 생성하는 능력입니다. 많은 주요 모델은 작은 움직임을 생성하거나 큰 움직임을 시도할 때 눈에 띄는 아티팩트를 만듭니다.”라고 언급했습니다.

그러나 VideoPoet는 최대 16 프레임의 비디오에서 더 크고 일관된 모션을 제공합니다. 또한 다양한 카메라 움직임, 비주얼 스타일을 시뮬레이션하고 시각 콘텐츠에 맞춰 새로운 오디오를 생성하는 등 폭넓은 기능을 처음부터 제공합니다. 중요한 것은 텍스트, 이미지, 비디오 등 여러 입력 유형을 프롬프트로 처리할 수 있다는 점입니다.

이러한 비디오 생성 기능을 하나의 LLM으로 통합함으로써 VideoPoet는 여러 전문 도구의 필요성을 없애고 비디오 제작을 위한 통합 솔루션을 제공합니다. 실제로 Google Research 팀의 설문 조사 결과, 시청자들은 VideoPoet 생성 클립을 선호한다고 밝혔습니다. 인간이 Source-1, VideoCrafter 및 Phenaki와 같은 확산 모델과 비교하여 클립을 평가했을 때, VideoPoet 비디오는 꾸준히 더 선호되었습니다.

Google Research 블로그에 따르면, “평균적으로 평가자들은 VideoPoet 예제의 24–35%를 경쟁 모델보다 프롬프트와 더 잘 일치한다고 선택했으며, 나머지 모델은 8–11%에 불과했습니다. 또한, VideoPoet 예제의 41–54%가 다른 모델의 11–21%보다 더 흥미로운 모션을 가진 것으로 평가되었습니다.”

세로 비디오에 맞춘 설계

Google Research는 VideoPoet를 기본적으로 세로(포트레이트) 비디오를 생성하도록 맞춤화하여 Snapchat과 TikTok과 같은 플랫폼에서 인기를 끌고 있는 모바일 비디오 사용자를 겨냥했습니다.

앞으로 Google Research는 VideoPoet의 기능을 확대하여 텍스트-오디오 및 오디오-비디오와 같은 "모든 대 모든" 생성 작업을 지원할 계획이며, 비디오 및 오디오 생성의 가능성을 더욱 발전시킬 예정입니다.

현재 VideoPoet는 공개 사용이 불가능하며, Google의 출시 정보가 기다려집니다. 그동안 우리는 시장의 다른 도구들과의 비교를 기대하며 기대감을 키워가고 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles