OpenAI의 혁신적인 AI 프로젝트인 “Sora”는 기술의 중요한 진전을 의미합니다. 이 혁신적인 텍스트-비디오 AI 모델은 제한된 사용자 테스트 단계에 돌입했으며, 놀랍도록 현실적인 AI 생성 비디오를 통해 그 뛰어난 기능을 선보이고 있습니다.
Sora는 텍스트 프롬프트를 생생한 비디오 장면으로 변환하도록 설계되었습니다. OpenAI는 웹사이트에서 여러 영상을 게시하며 그 인상적인 결과를 보여주고 있습니다. Sora에 제공되는 프롬프트는 간결하면서도 구체적이며, ChatGPT를 사용해본 사용자라면 Sora가 짧은 프롬프트에서도 결과를 도출할 수 있다는 점을 느낄 수 있을 것입니다. 예를 들어, 털복숭이 맘모스를 주제로 한 비디오를 만들기 위해 Sora는 동물, 환경, 카메라 앵글을 설명하는 67단어의 프롬프트만 필요했습니다.
OpenAI에 따르면, “Sora는 사용자 프롬프트에 부합하면서 높은 비주얼 품질을 유지하며 최대 1분 길이의 비디오를 생성할 수 있습니다.” 이 AI는 여러 캐릭터가 등장하는 복잡한 장면, 다양한 배경과 사실적인 동작을 제작할 수 있습니다. OpenAI는 Sora가 수신한 프롬프트에서 추가적인 맥락을 해석하고 추론할 수 있다고 강조합니다.
회사는 “모델은 사용자 요청을 이해할 뿐만 아니라 이러한 요소들이 현실에서 어떻게 존재하는지를 인식합니다.”라고 말합니다. Sora는 캐릭터와 배경을 렌더링하는 것뿐만 아니라 “풍부한 감정을 전달하는 매력적인 캐릭터”를 만드는 데에도 뛰어납니다.
또한, Sora는 기존 비디오를 확장하거나 빈 부분을 메우는 기능과 이미지를 기반으로 비디오를 생성하는 기능도 제공하여 텍스트 프롬프트 이상의 유연성을 목표로 합니다. 정지된 이미지는 놀랍지만, 움직이는 비디오는 정말 매력적입니다. OpenAI는 사이버펑크 스타일의 도쿄 거리에서 골드 러시 시대의 캘리포니아 역사적 영상, 인간 눈의 극단적인 클로즈업 등 다양한 생성 비디오를 강조했습니다. 제공된 프롬프트는 애니메이션 장면부터 야생 동물 촬영까지 다양한 주제를 포함하고 있습니다.
그러나 Sora는 여전히 한계가 있습니다. 일부 비디오에서는 군중 속 인물의 머리가 없거나 비정상적인 동작을 보이는 등 결점이 나타납니다. 이러한 어색한 움직임은 즉각적으로 눈에 띄지 않지만, 자세히 보면 분명해집니다.
Sora가 일반 대중에게 제공되기까지는 시간이 걸릴 수 있습니다. 현재 이 모델은 특정 그룹의 테스트 사용자들에 의해 잠재적인 위험을 평가하는 과정에 있으며, 많은 콘텐츠 제작자들이 초기 개발 단계에서 이 기술의 기능을 탐색하고 있습니다.
AI 기술이 계속 발전함에 따라 성능에 대한 기대감은 낮을 수 있습니다. 하지만 겸손한 기대감 때문인지 Sora의 고급 기능 때문인지, 초기 인상은 인상적이면서도 우려를 자아냅니다. 현실과 환상을 구분하기 점점 더 어려워지는 세상에서, 이 기술의 함의는 단순한 이미지에 국한되지 않고 비디오에도 영향을 미치고 있습니다. Sora는 텍스트-비디오 분야에서 처음 등장한 시도가 아니며, Pika와 같은 모델도 생겨났습니다.
이 기술에 대한 우려는 인기 있는 기술 유튜버 Marques Brownlee에 의해 재언급되며, 그는 Sora 시연과 관련해 트위터에서 “이것이 당신을 조금이라도 걱정하게 하지 않는다면, 아무것도 당신을 걱정하게 하지 않을 것”이라고 밝혔습니다.
OpenAI의 Sora가 이미 이 정도의 정교함을 달성하고 있다면, 향후 몇 년 간의 추가 개발과 테스트 후 그 잠재력에 대해 생각해 보는 것은 흥미로운 일입니다. 이러한 기술이 다양한 직업 시장에 disruption을 불러올 수 있지만, ChatGPT와 유사하게 인간 전문성과 통합될 수 있기를 바랍니다.