Stability AI의 생성형 AI 모델이 Stable Video 3D(SV3D)의 출시로 확장되었습니다. SV3D는 3D 영상을 렌더링하기 위해 설계된 생성형 AI 비디오 도구입니다. 이는 이미지나 텍스트 프롬프트로 짧은 비디오를 제작할 수 있는 기존 Stable Video 기술을 기반으로 하여, 새로운 뷰 합성과 3D 생성 기능을 향상시켜 이전 Stable Video Diffusion 모델에 비해 확실한 개선을 이뤘습니다.
SV3D는 단일 입력 이미지에서 멀티뷰 3D 메쉬의 생성 및 변환을 가능하게 하여 비디오 생성 기술의 깊이를 더했습니다. 이 모델은 연간 수익이 100만 달러 이하인 창작자 및 개발자를 위해 월 20달러에 제공되는 Stability AI 전문가 회원권을 통해 상업적 사용이 가능합니다. 비상업적 용도로는 Hugging Face에서 모델 가중치를 다운로드할 수 있습니다.
수많은 게임 제작 및 전자상거래에 적합한 SV3D는 "카메라 경로 조건을 통해 Stable Video Diffusion 이미지를 비디오로 변환하여 객체의 멀티뷰 비디오를 생성한다"고 Stability AI는 블로그에서 설명했습니다. Varun Jampani, Stability AI의 수석 연구원은 "Stable Video 3D는 게임 산업에서 3D 자산을 생성하는 데 특히 유용하다"고 강조하며, "360도 궤도 비디오를 제작하여 전자상거래에서 몰입형 쇼핑 경험을 향상시킨다"고 덧붙였습니다.
Stability AI는 SDXL 및 Stable Diffusion 3.0과 같은 텍스트-이미지 생성 AI 모델로 잘 알려져 있으며, Stable Diffusion 1.5 모델은 Runway와 Leonardo AI와 같은 여러 AI 이미지 생성 및 비디오 플랫폼에 사용되고 있습니다. Stability AI는 2023년 12월 Stable Zero123 모델을 출시하여 3D 이미지 생성의 새로운 기능을 도입했습니다. Emad Mostaque CEO는 이 모델이 3D 기술에 중점을 둔 일련의 모델 중 첫 번째라고 말했습니다.
SV3D는 Stable Zero123와는 다른 접근 방식을 취합니다. Jampani는 "Stable Video 3D는 이전 모델인 Stable Zero123의 후계자이자 향상판 역할을 한다"고 설명하며, "이 새로운 모델은 단일 입력에서 여러 새로운 뷰 이미지를 생성하는 혁신적인 뷰 합성 네트워크를 사용한다"고 덧붙였습니다. Stable Zero123이 한 번에 하나의 이미지를 출력하는Stable Diffusion에 의존하는 반면, SV3D는 Stable Video Diffusion 모델을 활용하여 동시에 여러 새로운 뷰를 생성하여 단일 이미지에서 더 우수한 품질과 효율적인 3D 메쉬 생성을 가능하게 합니다.
Stability AI의 연구 논문은 단일 이미지로부터 3D 비주얼을 생성하는 기술을 다루고 있습니다. "최근 3D 생성 분야의 발전은 새로운 뷰 합성(NVS)과 3D 최적화를 위해 2D 생성 모델을 적응시킨다"고 보도되었습니다. 그러나 기존 방법들은 제한된 시점과 불일치하는 출력에 어려움을 겪고 있습니다.
SV3D의 주요 강점은 객체의 일관된 멀티뷰 이미지를 제공하여 다양한 각도에서 일관된 시각을 제공하는 것입니다. 연구 논문은 "이전 접근 방식이 제한된 뷰와 불일치 문제로 어려움을 겪는 것과는 달리, Stable Video 3D는 효과적인 일반화를 통해 모든 각도에서 일관된 시각을 제공한다"고 강조합니다.
뷰 합성 향상 외에도 SV3D는 3D 메쉬 최적화를 목표로 하고 있습니다. 멀티뷰 일관성 덕분에 생성된 출력에서 직접 고품질 3D 메쉬를 생성할 수 있습니다. Stability AI는 "Stable Video 3D는 멀티뷰 일관성을 활용하여 3D 신경 방사장(neural radiance fields, NeRF) 및 메쉬 표현을 최적화하여 생성된 3D 메쉬의 품질을 크게 향상시킨다"고 발표했습니다.
SV3D는 두 가지 변형으로 제공되어 각각의 사용 사례에 맞춰 설계되었습니다. SV3Du는 카메라 조건 없이 단일 이미지 입력에서 궤도 비디오를 생성합니다. 반면 SV3Dp는 단일 이미지와 궤도 뷰를 모두 지원하여 사용자가 지정된 카메라 경로에 따라 3D 비디오를 제작할 수 있게 합니다.