OpenAI와 Meta의 YouTube 영상 활용: AI 훈련을 위한 최신 산업 트렌드 분석

AI 기술이 빠르게 발전함에 따라 데이터는 AI 모델 개발의 핵심 요소로 부각되고 있습니다. 그러나 월스트리트 저널의 최근 보도에 따르면, AI 기업들은 고품질 훈련 데이터 확보에 있어 전례 없는 문제에 직면하고 있습니다. 오늘 뉴욕 타임스는 이러한 기업들이 이 복잡한 문제를 해결하기 위해 사용하는 전략, 특히 AI 저작권 법의 복잡성에 대해 더 깊이 살펴보았습니다.

AI 분야의 선두주자인 OpenAI는 훈련 데이터의 필요성이 특히 큽니다. 보고서에 따르면, 이 회사는 Whisper 오디오 전사 기술을 사용하여 고급 GPT-4 대형 언어 모델을 개발하기 위해 백만 시간 이상의 YouTube 비디오를 전사했습니다. 또한 OpenAI는 GitHub의 코드, 체스 움직임 데이터베이스, Quizlet의 교육 콘텐츠 등 다양한 데이터 자원을 집계했습니다.

이 접근 방식은 법적 논란을 일으켰습니다. OpenAI는 자사의 데이터 사용이 공정 사용 원칙에 부합한다고 주장하지만, 뉴욕 타임스는 OpenAI의 그렉 브록맨 사장이 데이터 수집 과정에 직접 참여하여 저작권 문제를 더욱 복잡하게 만들었다고 보도했습니다.

The Verge와의 인터뷰에서 OpenAI 대변인은 회사에서 각 모델에 맞춘 독특한 데이터 세트를 구성하여 세계 이해도를 향상하고 글로벌 연구 경쟁력을 유지하려 한다고 밝혔습니다. 또한 OpenAI는 외부 데이터 소스에 대한 의존도를 줄이기 위해 합성 데이터 생성 가능성도 탐색하고 있다고 전했습니다.

구글은 OpenAI의 관행에 대해 우려를 표명하며, 대변인은 이메일을 통해 OpenAI의 활동에 관한 확인되지 않은 보도를 목격했다고 언급하고, 구글의 robots.txt 파일과 서비스 약관이 무단 스크래핑이나 YouTube 콘텐츠 다운로드를 금지한다고 강조했습니다.

YouTube CEO 닐 모한은 최근 인터뷰에서 OpenAI가 Sora 모델 훈련을 위해 YouTube 비디오를 사용했다는 직접적인 증거는 없지만, 이러한 행위는 YouTube의 서비스 약관을 위반할 것이라고 밝혔습니다.

동시에 Meta는 자체 데이터 가용성 문제로 어려움을 겪고 있습니다. 뉴욕 타임스에 따르면, Meta의 AI 팀은 OpenAI에 따라잡기 위해 저작권이 있는 작품의 무단 사용 시나리오를 고려하고 있으며, 데이터 세트를 확장하기 위해 방대한 영어 콘텐츠, 에세이, 시, 뉴스 기사 등을 검토하고 있습니다. 또한 Meta는 저작권료를 지불하거나 대형 출판사를 직접 인수하는 방안을 논의 중입니다.

이러한 발전은 AI 산업이 데이터 수집 및 사용에서 직면하고 있는 법적 및 윤리적 도전 과제를 부각합니다. 기술이 발전함에 따라 AI 모델이 저작권 보호를 존중하면서 어떻게 발전할 수 있을지에 대한 긴급한 질문이 제기됩니다. 앞으로 AI 기업과 규제 기관이 협력하여 AI 기술의 건강하고 지속 가능한 발전을 촉진하는 보다 명확하고 공정한 규제를 구축하는 것이 필수적입니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles