최근 Proof News의 조사에 따르면, 세계 여러 주요 기술 기업들이 EleutherAI라는 비영리 조직이 생성한 173,000개 이상의 유튜브 비디오 전사 데이터세트를 허가 없이 사용하여 AI 모델을 훈련시켰습니다. 이 데이터세트는 48,000개 이상의 채널에서 수집된 전사 내용을 포함하고 있으며, Apple, NVIDIA, Anthropic 등이 이를 활용하고 있습니다. 이 조사는 AI 기술의 기초 데이터세트가 콘텐츠 제작자의 동의나 공정한 보상 없이 사용되고 있는 심각한 문제를 부각시킵니다.
이 데이터세트에는 유튜브 영상의 실제 영상이나 이미지가 포함되어 있지 않지만, Marques Brownlee, MrBeast와 같은 유명 제작자의 전사 내용과 The New York Times, BBC, ABC News와 같은 주요 언론사의 콘텐츠가 포함되어 있습니다. Engadget의 콘텐츠 또한 포함되어 있습니다.
Marques Brownlee는 소셜 미디어 플랫폼 X에서 "Apple은 여러 회사에서 AI 데이터를 조달하며, 유튜브 비디오에서 추출한 전사 내용도 상당량 포함되어 있다"고 우려를 표명했습니다. 그는 "이 문제는 오랫동안 지속되어 왔다"고 강조했습니다.
Google의 대변인은 Engadget에 "유튜브 CEO Neal Mohan의 발언이 여전히 유효하다"며, 유튜브 데이터를 AI 모델 훈련에 사용하는 것은 플랫폼의 서비스 약관을 위반한다고 확인했습니다. Apple, NVIDIA, Anthropic, EleutherAI는 Engadget의 문의에 응답하지 않았습니다.
AI 기업들이 모델 훈련에 사용하는 데이터의 투명성 부족은 여전히 큰 우려 사항입니다. 최근 아티스트와 사진작가들은 Apple이 수백만 대의 Apple 기기에 적용될 예정인 생성형 AI 기술인 Apple Intelligence의 훈련 데이터 출처를 공개하지 않은 것에 대해 비판했습니다.
최대 온라인 비디오 플랫폼인 유튜브는 전사 데이터뿐만 아니라 오디오 및 비디오 콘텐츠도 제공하여 AI 훈련에 소중한 자원이 되고 있습니다. 올해 초, OpenAI의 CTO Mira Murati는 월스트리트 저널 인터뷰에서 유튜브 비디오가 회사의 AI 도구 Sora 훈련에 사용되었는지에 대한 질문을 회피하며, 사용된 데이터가 공개적으로 이용 가능하거나 라이선스가 있는 것이라고 주장했습니다. Alphabet CEO Sundar Pichai 또한 유튜브 데이터를 사용한 AI 모델 훈련은 플랫폼의 서비스 약관을 위반한다고 언급했습니다.
특정 채널이나 비디오의 전사 내용이 이 데이터세트에 포함되어 있는지 확인하려면 Proof News의 쿼리 도구를 방문하시기 바랍니다.