애플, NVIDIA, 그리고 Anthropic이 AI 모델 훈련을 위해 유튜브 전사를 무단 사용한 혐의가 제기되었습니다.

Proof News의 조사에 따르면, Apple, NVIDIA, Anthropic 등 일부 대형 기술 기업들이 173,000개 이상의 YouTube 비디오의 전사본을 포함한 데이터셋을 사용하여 AI 모델을 훈련하면서 콘텐츠 제작자의 허가를 받지 않았습니다. 이 데이터셋은 비영리 단체 EleutherAI가 편집한 것으로, Marques Brownlee, MrBeast와 같은 주요 인물 및 The New York Times, BBC, ABC News와 같은 대형 뉴스 조직을 포함한 48,000명 이상의 제작자를 대표하는 채널의 전사본이 포함되어 있습니다.

이번 조사는 AI 개발의 우려스러운 현실을 드러냅니다. 많은 기술이 제작자의 동의나 보상 없이 수집된 데이터를 기반으로 하고 있습니다. 비디오나 이미지가 포함되어 있지 않지만, 영향력 있는 콘텐츠 제작자의 상당한 기여가 포함된 데이터셋입니다.

Marques Brownlee는 소셜 미디어에서 Apple이 다양한 회사로부터 데이터를 수집하고 있으며, 그 중 하나가 그의 YouTube 비디오를 포함한 전사본을 스크랩했다고 우려를 표명했습니다. 그는 "이 문제는 오랫동안 진화할 것"이라며 AI의 데이터 사용과 관련된 복잡한 윤리적 문제를 인정했습니다.

Google 대변인은 YouTube CEO Neal Mohan의 발언을 재확인하며, YouTube 데이터를 AI 훈련에 활용하는 기업들이 플랫폼의 서비스 약관을 위반하고 있다는 점을 강조했습니다. Apple, NVIDIA, Anthropic, EleutherAI에 대한 반복적인 논평 요청은 답변이 없습니다.

AI 기업들이 사용하는 훈련 데이터의 투명성은 여전히 해결되지 않은 문제입니다. 최근 Apple은 다가오는 생성형 AI 기능인 Apple Intelligence의 훈련 데이터 출처를 공개하지 않아 예술가와 사진작가로부터 비판을 받았습니다. 이에 대해 Apple은 연구 목적으로 엄격히 생성된 OpenELM 모델이 자사의 AI나 기계 학습 기능을 구동하지 않는다고 설명했습니다. 회사는 자사의 AI 모델이 "라이센스가 있는 데이터"와 웹 크롤러가 수집한 공개 정보를 기반으로 훈련되었다고 주장했습니다.

세계 최대의 비디오 저장소인 YouTube는 풍부한 전사본, 오디오, 비디오 및 이미지를 제공하여 AI 모델 개발에 매력적인 자원입니다. 올해 초 OpenAI의 최고 기술 책임자 Mira Murati는 OpenAI의 차세대 AI 비디오 생성 도구인 Sora 훈련에 YouTube 비디오가 사용되었는지에 대한 질문을 회피하며 데이터가 공개되거나 라이센스된 것이라고 밝혔습니다.

YouTube 비디오나 좋아하는 채널의 자막이 이 데이터셋에 포함되어 있는지 확인하고 싶다면 Proof News의 조회 도구를 방문하세요.

Most people like

Find AI tools in YBX