AI 동영상 생성의 분야는 이번 주 파라미드 플로우(Pyramid Flow)의 출시로 더욱 확장되고 있습니다. 이 오픈 소스 모델은 최대 10초 길이의 고화질 동영상을 인상적인 속도로 생성합니다.
베이징대학교, 베이징 우편통신대학교, 그리고 뛰어난 Kling AI 동영상 생성기로 유명한 Kuaishou Technology의 협업 팀이 개발한 파라미드 플로우는 혁신적인 접근 방식을 채택하고 있습니다. 이 모델은 주로 저해상도로 여러 단계에서 동영상을 생성하고, 최종 출력에서만 전체 해상도를 사용합니다.
5초 길이의 384p 동영상을 단 56초 만에 생성할 수 있는 능력을 가진 파라미드 플로우는 주요 모델들과 경쟁할 만한 성능을 자랑합니다. 하지만 Runway의 Gen 3 Alpha Turbo는 여전히 빠른 속도의 왕좌를 차지하고 있으며, 일부 테스트에서는 10~20초 만에 동영상을 생성하기도 했습니다.
파라미드 플로우는 아직 직접 테스트해보지 않았지만, 제작자들이 공유한 데모 영상들은 매우 사실적인 비주얼과 프로프라이어터리 시스템에 준하는 해상도를 보여주고 있습니다. 자세한 예시는 GitHub 프로젝트 페이지에서 확인할 수 있습니다.
파라미드 플로우는 상업적 용도를 포함한 간편한 다운로드와 사용이 가능하여, Runway의 Gen-3 Alpha, Luma의 Dream Machine, Kling, Haulio와 같은 유료 경쟁자들에 비해 강력한 대안으로 자리잡고 있습니다.
AI 동영상 생성 제공업체의 경쟁이 치열해지는 가운데, 파라미드 플로우는 고급 동영상 생성 솔루션을 찾고 있는 개발자, 아티스트, 콘텐츠 제작자에게 효율성과 유연성을 제공합니다.
새로운 기술: 피라미드 플로우 매칭(Pyramidal Flow Matching)
AI 동영상 생성은 상당한 컴퓨팅 리소스를 필요로 하며, 종종 다양한 단계를 위해 여러 모델을 요구하기 때문에 훈련이 복잡해질 수 있습니다. 파라미드 플로우는 비주얼 품질을 유지하면서 컴퓨팅 부담을 크게 줄이는 피라미드 플로우 매칭 기법을 도입하였습니다. 이 방법은 비디오 생성 과정을 체계적인 "피라미드" 단계로 완료하며, 최종 단계에서만 전체 해상도를 이용합니다.
이 방법론은 2024년 10월 8일 오픈 액세스 저널 arXiv에 제출된 "효율적인 비디오 생성 모델링을 위한 피라미드 플로우 매칭"이라는 사전 검토 논문에 자세히 설명되어 있습니다. 연구팀은 베이징대학교와 Kuaishou Technology의 양진, 지청순, 닝위안리, 쿤시우 등을 포함하고 있습니다.
논문은 다양한 단계에서 비디오 생성을 최적화함으로써 훈련 수렴 속도를 높이고, 파라미드 플로우가 적은 처리로 더 많은 샘플을 생성할 수 있도록 한다고 설명합니다. 특히, 이는 기존의 확산 모델 대비 토큰 수를 4배 줄여 훈련 효율성을 높입니다.
모델은 768p 해상도와 24fps로 5초에서 10초 길이의 동영상을 생성할 수 있으며, LAION-5B, CC-12M, SA-1B, WebVid-10M, OpenVid-1M과 같은 오픈소스 데이터셋을 통해 약 1천만 개의 단일 샷 동영상을 학습했습니다.
하지만 LAION-5B와 같은 데이터셋의 출처에 대한 우려가 있으며, 일부는 저작권 있는 자료를 무단으로 호스팅하고 있다는 비난을 받고 있습니다. Runway 또한 유사한 저작권 침해 문제로 아티스트들로부터 고소를 당하고 있습니다.
오픈 소스 및 상업적 사용
파라미드 플로우는 MIT 라이선스 하에 배포되어 광범위한 사용, 상업적 프로젝트, 수정, 재배포가 가능합니다. 이는 고유 모델에 따른 비용 부담 없이 AI 영상 기능을 통합하려는 개발자와 기업들에게 매력적인 선택이 됩니다.
그러나 파라미드 플로우는 현재 프로프라이어터리 모델에서 제공되는 일부 고급 기능이 부족합니다. 예를 들어, Runway의 Gen-3 Alpha는 카메라 각도와 인체 제스처에 대한 상세한 제어를 제공하지만, 파라미드 플로우는 이를 아직 복제하지 못했습니다. 또한, 최근에 도입된 만큼 생태계가 경쟁자들에 비해 덜 발전해 있습니다.
AI 동영상 생성의 미래
AI 동영상 생성 시장이 발전함에 따라, 파라미드 플로우의 출현은 기존 프로프라이어터리 솔루션과 경쟁할 수 있는 보다 접근성이 좋은 오픈 소스 대안의 전환을 의미합니다. 전통적인 모델의 제약 없이 인상적인 영상 품질을 제공하는 파라미드 플로우는 제작자와 개발자들 사이에서 선호되는 도구가 될 가능성이 큽니다.
앞으로, 업계 관계자들은 파라미드 플로우의 진로와 잠재적 개선 사항을 면밀히 주목할 것이며, 모든 플레이어가 기술적 우위와 사용자 확보를 위해 경쟁하고 있습니다. 한편, 2024년 초에 소개된 OpenAI의 Sora는 초기 사용자 그룹 외에는 거의 테스트되지 않은 상태입니다.