스테이빌리티 AI, AI 비디오 생성의 진전을 알리는 SVD 1.1 발표
스테이빌리티 AI가 콘텐츠 생성 및 코딩을 위한 오픈 소스 AI 모델을 확대하는 가운데, 이미지에서 비디오로 변환하는 잠재 확산 모델인 스테이블 비디오 디퓨전(SVD)의 업그레이드 버전인 SVD 1.1을 발표했습니다.
SVD 1.1 소개
새로운 버전, SVD 1.1은 SVD 1.0의 개선된 버전으로, 짧은 AI 비디오를 더 향상된 모션과 일관성으로 생성하도록 최적화되었습니다. 스테이빌리티 AI의 CTO인 톰 메이슨은 SVD 1.1이 이제 Hugging Face를 통해 다운로드할 수 있다고 확인했습니다. 또한, 개인 및 기업을 위한 다양한 구독 멤버십에도 포함되어 있으며, 무료부터 월 20달러까지의 요금제로 제공됩니다. 상업적 사용자는 배포를 위해 구독이 필요하지만, 연구 목적의 사용은 무료로 제공됩니다.
SVD 1.1의 향상된 기능
2023년 11월에 출시된 스테이빌리티 AI는 AI 비디오 생성을 위한 두 가지 모델, 즉 정지 이미지를 기반으로 최대 14프레임의 4초 비디오를 생성하는 SVD와 25프레임을 생성하는 SVD-XT를 처음 소개했습니다. SVD-XT를 기반으로 한 새로운 SVD 1.1은 동일한 크기의 컨텍스트 프레임이 제공될 때, 1024×576 해상도로 4초 비디오를 25프레임으로 생성합니다.
이번 업그레이드는 이전 버전보다 비디오 출력의 일관성을 더욱 높이는 데 초점을 맞추고 있습니다. 이전 모델들은 가끔 포토리얼리즘에서 어려움을 겪고 모션이 부족했으며, 사실적인 얼굴과 사람을 생성하는 데 어려움이 있었습니다. SVD 1.1은 이러한 문제를 해결하고 최종 출력에서 향상된 모션 동역학을 약속합니다.
회사는 "SVD 1.1의 파인튜닝은 6 FPS와 모션 버킷 ID 127로 고정된 조건에서 수행되어 하이퍼파라미터 조정 없이 출력 일관성을 강화했습니다."라고 밝혔습니다. 이러한 설정은 조정 가능하지만, 고정된 조건 외부에서는 성능 차이가 있을 수 있습니다.
성능 및 미래 전망
스테이빌리티 AI는 SVD 1.1의 향상을 주장하고 있지만, 실제 효과는 평가를 기다리고 있습니다. 모델의 Hugging Face 페이지는 연구 중심 디자인을 강조하고 있으며, 이전 버전의 몇 가지 문제는 여전히 존재할 수 있다고 경고합니다.
Hugging Face 외에도 안정적인 비디오 디퓨전 모델은 스테이빌리티 AI 개발자 플랫폼에서 API를 통해 사용할 수 있어, 개발자들이 고급 비디오 생성 기능을 애플리케이션에 원활하게 통합할 수 있게 합니다. 스테이블 비디오 디퓨전 API는 MP4 형식으로 24 FPS의 4초 비디오를 생성하며, 25개의 생성된 프레임과 보간된 프레임을 제공합니다. 모션 강도 조절, 다양한 레이아웃 및 해상도(1024×576, 768×768, 576×1024) 지원 등 사용자 편의성을 높이는 기능이 포함되어 있습니다.
앞으로의 전망
2023년, 스테이빌리티 AI는 모델 업데이트를频繁하게 진행하며 생성적 AI 분야에서 큰 발전을 이루었습니다. 이러한 추세는 2024년에도 계속될 것으로 보입니다. 2019년에 설립된 이 회사는 2022년 1억 1천만 달러의 자금을 포함하여 상당한 투자를 유치했습니다. 그러나 Runway와 Pika와 같은 다른 AI 비디오 생성 업체들과의 경쟁에 직면해 있습니다. 이들은 사용자 친화적인 웹 플랫폼을 통해 비디오 커스터마이징 및 업스케일링 서비스를 제공하고 있습니다.
최근 Runway는 특정 영역의 AI 비디오를 애니메이션화할 수 있는 다중 모션 브러시 기능을 도입했으며, Pika는 특정 비디오 영역을 수정하는 기능을 제공합니다. 그러나 이들 모두 API를 운영하지 않아 제3자 애플리케이션에 통합하는 데 제한이 있습니다.
AI 비디오 생성의 사용자 경험이 계속 발전함에 따라, SVD 1.1은 주목할 만한 발전을 나타내고 있습니다.