월스트리트 저널과의 독점 인터뷰에서 OpenAI의 CTO 미라 무라티는 회사의 Sora 텍스트-비디오 모델에 대해 논의하며, 해당 모델이 몇 달 내에 대중에게 공개될 수 있다고 밝혔습니다. 데모는 인상적이면서도 사랑스러운 클립으로 관객을 매료시켰습니다.
하지만 무라티가 Sora의 훈련 데이터에 대한 질문을 받자 대화는 다른 방향으로 전개되었습니다. 그녀는 "우리는 공개적으로 이용 가능한 데이터와 라이선스 데이터를 사용했다"고 답했지만, YouTube, Facebook 또는 Instagram의 콘텐츠가 포함되었는지에 대해서는 명확하게 설명하지 못했습니다. 그녀는 Shutterstock 콘텐츠의 사용을 인정했지만, 다른 플랫폼에 대한 불확실성은 의구심을 자아냈습니다. YouTube에 대해서는 "사실 잘 모르겠다"는 반응을 보였고, Facebook과 Instagram에 대해서는 "공식적으로 제공된 비디오가 있을 수 있다"는 모호한 언급을 했지만 구체적인 확인은 하지 않았습니다.
이런 모호함은 OpenAI의 홍보팀을 불쾌하게 했을 것 같습니다. 특히 뉴욕타임스의 소송을 포함한 진행 중인 저작권 관련 소송이 있기 때문입니다. 훈련 데이터의 세부 사항은 저자, 사진작가, 아티스트 등 많은 이해관계자에게 중요하며, 이들은 Sora와 같은 모델을 개발하는 데 사용된 콘텐츠에 대한 명확한 정보를 원하고 있습니다. The Information에 따르면, OpenAI는 다양한 온라인 소스에서 데이터를 활용했다고 전해지며, 이로 인해 회사의 관행에 대한 scrutiny가 강화되었습니다.
훈련 데이터의 의미는 법적 이슈를 넘어서 신뢰와 투명성 문제와 연결됩니다. OpenAI가 "공식적으로 이용 가능한" 콘텐츠로 훈련을 했다면, 대중이 이를 모르고 있다면 어떻게 될까요? 더불어, Google과 Meta와 같은 다른 기술 대기업도 자사의 플랫폼에서 공개적으로 공유된 콘텐츠를 활용하고 있습니다. 이는 법적으로 적법할 수 있지만, 최근 FTC의 서비스 약관 변경에 대한 경고는 대중의 인식에 대한 의문을 제기합니다.
훈련 데이터와 관련된 논의는 생성형 AI의 기초가 되며, 법정뿐 아니라 대중의 인식에서도 큰 타격이 불가피할 것으로 보입니다. AI 모델 훈련을 위한 다양한 데이터셋의 의존성은 이러한 데이터셋에 기여한 창작자들에게 영향을 미칩니다.
역사적으로 마케팅을 위한 데이터 수집은 상호 교환 방식으로 이루어졌습니다. 사용자는 향상된 경험을 위해 데이터를 제공하지만, 이 교환은 종종 데이터 중개인에게 불균형적인 이익을 줍니다. 생성형 AI 환경에서 이 동태는 변화하고 있으며, 많은 사람들은 자신의 공개된 작업이 착취적으로 사용되며 일자리와 창의성에 위협이 된다고 보고 있습니다.
전문가들은 모델 개선을 위한 잘 정리된 훈련 데이터셋의 중요성을 강조하며 연구 목적이 아닌 상업적 착취를 위한 것이어서는 안 된다고 주장합니다. 그러나 사람들이 자신의 콘텐츠가 수익 중심의 모델 훈련에 사용되고 있다는 사실을 알게 된다면, 그 수용도가 줄어들 것인가 하는 질문이 남아 있습니다.
환경이 변화함에 따라 OpenAI, Google, Meta와 같은 기업들은 초기의 이점을 누릴 수 있겠지만, AI 훈련 데이터와 관련된 지속적인 도전이 장기적인 결과를 초래할 수 있고, 오늘날의 이점이 복잡한 거래로 돌변할 가능성도 있습니다.