구글, 현실감 있는 AI 비디오 제작을 위한 공간-시간 확산 모델 '루미에르' 공개

Home AI 뉴스 구글, 현실감 있는 AI 비디오 제작을 위한 공간-시간 확산 모델 '루미에르' 공개

기업들이 생성적 AI의 잠재력을 더욱 활용하면서, 더 발전된 솔루션 개발에 박차를 가하고 있습니다. 그 중 주목할 만한 예가 구글, 와이즈만 과학 연구소, 텔아비브 대학교의 연구자들에 의해 개발된 공간-시간 확산 모델 '루미에르'입니다. 이는 현실감 있는 비디오 생성을 개선하기 위해 고안되었습니다.

최근 발표된 논문은 루미에르의 혁신적인 기술을 설명하였으나, 아직 공공 테스트는 이루어지지 않고 있습니다. 출시가 이루어지면 구글은 Runway, Pika, Stability AI와 같은 기업들이 지배하는 AI 비디오 분야에서 강력한 경쟁자로 부상할 수 있습니다.

루미에르의 기능은 무엇인가요?

'루미에르'는 '빛'에서 유래된 비디오 확산 모델로, 현실적이면서도 스타일화된 비디오를 생성하도록 설계되었습니다. 사용자는 자연어로 텍스트 설명을 입력하여 그에 맞는 비디오를 만들 수 있습니다. 또한 정지 이미지를 업로드하고 텍스트 프롬프트를 적용하여 이를 동적 비디오로 변환할 수 있습니다. 주요 기능으로는 특정 개체를 텍스트 명령에 따라 삽입하는 인페인팅, 특정 장면 부분에 움직임을 추가하는 시네마그래프, 선택한 참조 이미지 스타일로 비디오를 생성할 수 있는 스타일화 생성이 있습니다.

연구자들은 “최첨단 텍스트-비디오 생성 결과를 보여주며, 이미지-비디오, 비디오 인페인팅, 스타일화 생성 등 광범위한 콘텐츠 제작 작업과 비디오 편집 애플리케이션을 용이하게 한다”고 밝혔습니다.

성능 및 방법론

업계에는 Runway와 Pika와 같은 유사한 기능이 존재하지만, 저자들은 현재 모델들이 종종 연속성 문제에 직면한다고 주장합니다. 보통 기본 모델이 주요 프레임을 생성한 후 시간적 초해상도(TSR) 모델이 공백을 메우는 형태로 진행되므로, 비디오 지속 시간과 움직임의 현실감 제한이 발생할 수 있습니다.

루미에르는 Space-Time U-Net 아키텍처를 활용하여 비디오의 전체 시간 지속을 한 번에 생성함으로써 이 문제를 해결합니다. "공간적 및 시간적 다운샘플링 및 업샘플링을 모두 활용하고, 사전 훈련된 텍스트-이미지 확산 모델을 기반으로 우리 방법은 여러 공간-시간 스케일에서 비디오를 처리해 풀프레임 속도, 저해상도 비디오를 생성하도록 학습합니다,"라고 연구자들은 설명했습니다.

3천만 개의 비디오와 해당하는 텍스트 캡션 데이터셋으로 훈련된 루미에르는 16fps에서 80프레임을 생성할 수 있지만, 데이터셋 출처는 불확실합니다.

다른 AI 비디오 모델과의 비교

Pika, Runway, Stability AI의 모델과 비교했을 때, 연구자들은 경쟁자들이 높은 프레임당 시각적 품질을 달성했지만, 짧고 4초 분량의 출력에서 동적 움직임이 부족하여 거의 정적인 클립이 되었다고 지적했습니다. ImagenVideo 역시 제한된 움직임 품질을 보였습니다.

"반면, 우리 방법은 더 큰 움직임의 강도를 유지하면서도 시간적 일관성과 전체 품질을 유지하여 5초 비디오를 생성합니다,"라고 연구자들은 보고했습니다. 사용자 설문조사는 텍스트 및 이미지-비디오 생성에서 루미에르를 다른 모델보다 선호한다고 나타났습니다.

루미에르는 AI 비디오 분야에서 유망한 발전을 의미하지만, 아직 테스트 진행이 되지 않고 있다는 점은 주목할 필요가 있습니다. 연구자들은 여러 샷이나 매끄러운 장면 전환을 생성할 수 없는 한계를 인정하며, 이는 향후 탐구가 필요한 분야로 지적하였습니다.

예의 '가슴앓이'에서 '트루 디텍티브'까지: AI가 대중문화 트렌드를 형성하는 방법

AI 이미지 생성 혁신: 딥페이크의 급증에 대비하라 (LoRA는 구식인가?)

Most people like

VideoMaker.me

485.3K

우리의 AI 비디오 제작기의 강력함을 경험해 보세요. 고급 텍스트-투-비디오 및 이미지-투-비디오 기능을 갖춘 이 도구로, 글과 이미지를 매력적인 비주얼 스토리로 변환하여 손쉽게 멋진 영상을 만들 수 있습니다. 콘텐츠 제작자, 마케팅 전문가, 사업주 누구나 이 직관적인 도구를 이용해 몇 분 안에 프로 수준의 비디오를 제작할 수 있습니다. 오늘 우리의 혁신적인 기능으로 창의력을 발휘하고 비디오 콘텐츠를 한 단계 끌어올려 보세요!

AI 비디오 제작기 Text to Video

restorePhotos.io

250.3K

고급 AI 기술을 활용하여 오래되고 흐릿한 사진을 개선하는 혁신적인 플랫폼으로 소중한 추억을 되살리세요. 희미한 얼굴 이미지를 선명하고 생동감 있는 기념품으로 변모시켜 소중한 순간이 오랫동안 간직될 수 있도록 합니다.

사진 복원 AI Background Remover

YouTube Summarized

99K

유튜브 요약 소개, YouTube 비디오와 팟캐스트의 간결한 요약을 손쉽게 만들어주는 혁신적인 AI 도구입니다. 고급 알고리즘을 통해 유튜브 요약은 길고 복잡한 콘텐츠를 쉽게 소화할 수 있는 하이라이트로 변환하여 필요한 정보를 빠르게 접근할 수 있도록 돕습니다.

AI 동영상 요약 생성기 AI Content Generator

Reface

919.7K

AI 기반의 Reface 앱으로 비디오와 GIF를 변환하고 얼굴을 매끄럽게 교체해보세요. 또한, 좋아하는 사진을 손쉽게 생동감 넘치는 만화로 변환하세요!

인공지능 AI Product Description Generator

Find AI tools in YBX