올해 초 OpenAI가 Sora 생성 AI 비디오 제작 모델을 소개한 이후, 사실감과 품질 면에서 그에 필적할 경쟁자는 없었습니다. 그러나 이제 변화가 생겼습니다.
구글은 연례 I/O 개발자 컨퍼런스에서 세계적으로 유명한 DeepMind 부서에서 개발한 새로운 생성 AI 비디오 모델인 Veo를 발표했습니다. 구글에 따르면 Veo는 "고해상도 1080p 클립을 60초를 초과하여 생성할 수 있다"고 합니다. DeepMind의 X 계정에 올린 게시물에 따르면, 이 모델은 포토리얼리즘, 초현실주의, 애니메이션 등 다양한 영화 스타일을 처리할 수 있습니다.
구글은 Veo의 목표를 "모든 사람이 비디오 제작을 쉽게 할 수 있도록 하는 것"이라고 밝히며, 경험 많은 영화 제작자, 창작자를 꿈꾸는 사람들, 교육자 모두를 대상으로 하고 있습니다. Veo는 텍스트-비디오, 비디오-비디오, 이미지-비디오 변환을 지원합니다.
구글은 다재다능한 아티스트 도날드 글로버(Childish Gambino)와 협력하여, 그의 창의 스튜디오인 Gilga를 통해 Veo의 새로운 기능을 테스트했습니다. DeepMind는 여러 생성된 비디오를 유튜브와 X 계정에 공개하며 Veo의 놀라운 성능을 시연했습니다. 이 비디오에는 네온 도시, 생동감 넘치는 해파리, 말을 타고 있는 카우보이, 우주를 탐험하는 우주선, 인간 상호작용 등의 장면이 담겨 있으며, 이 모든 것이 간단한 텍스트 프롬프트로부터 생성되었습니다.
구글 부사장 Eli Collins와 수석 연구 이사 Douglas Eck의 블로그 게시물에서 Veo는 "전례 없는 창의적 통제 수준"을 자랑하며, "타임랩스"와 "항공 샷"과 같은 영화 용어에 대한 이해도가 탁월하다고 강조되었습니다.
또한 Veo는 AI로 생성된 비디오와 사용자가 업로드한 비디오 모두에 대해 신속하고 고품질의 편집을 지원합니다. 예를 들어, 사용자가 공중 해안선 장면에 카약을 추가하는 명령을 입력하면, Veo가 이를 원본 비디오에 매끄럽게 통합할 수 있습니다.
Veo는 또한 비디오 프레임 간 일관성을 유지하는 데 뛰어난 성능을 보이며, Sora를 포함한 다른 모델에서 흔히 발견되는 불일치 문제를 해결합니다. 이는 고급 잠재 확산 변환기를 통해 달성되어, 캐릭터와 객체가 일관되게 유지되며 현실감 있게 표현됩니다.
구글은 훈련 데이터 캡션을 개선하고 고품질의 압축 비디오 표현을 활용하여 Veo의 성능을 향상시켰습니다. 이러한 최적화는 전반적인 비디오 품질을 높이고 생성 시간을 단축시킵니다.
Veo로 생성된 모든 비디오는 구글의 콘텐츠 인증 워터마크인 SynthID가 삽입되어 AI 생성 상태를 확인할 수 있습니다. Veo는 Generative Query Network(GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet 및 Lumiere와 같은 이전 혁신을 기반으로 한 DeepMind의 수년간 연구 결과물입니다.
현재 Veo는 공개되지 않았으며, Sora의 방식을 따라 선택된 창작자들에게 VideoFX의 비공식 미리보기를 통해 접근할 수 있습니다. 구글은 궁극적으로 Veo의 일부 기능을 유튜브 숏츠 및 다른 제품에 통합할 계획입니다.