아동 성적 학대 이미지 삭제 후, 무료 AI 이미지 데이터셋에 대한 논란 발생

최근 스탠포드 인터넷 관측소의 보고서에 따르면, AI 훈련에 사용되는 중요한 오픈소스 데이터셋인 LAION-5B에는 아동 성적 학대물(CSAM)이 최소 1,008건 포함되어 있으며, 이외에도 여러 건이 의심되는 것으로 나타났습니다. 2022년 3월에 공개된 이 방대한 데이터셋은 50억 개 이상의 이미지와 관련 캡션으로 구성되어 있으며, 모두 인터넷에서 수집된 것입니다. 보고서는 데이터셋 내 CSAM의 존재가 이 데이터로 훈련된 AI 시스템이 아동 학대의 새로운, 잠재적으로 현실감 있는 묘사를 생성할 수 있다는 우려를 제기하고 있습니다.

이에 LAION은 404 미디어와의 인터뷰에서 데이터셋을 “안전성을 확保하기 위해” 일시적으로 제거한다고 밝혔습니다. LAION의 데이터셋은 이전에도 비판을 받아왔습니다. 2021년 10월, 인지 과학자 아베바 비르하네는 LAION-400M이라는 초기 데이터셋을 분석한 논문을 발표하였고, 그 결과 명백한 이미지와 강간 및 포르노와 관련된 문제적 콘텐츠가 포함되어 있음을 강조했습니다.

2022년 9월, 아티스트 라핀은 2013년 그녀의 의사가 촬영한 개인 의료 기록 사진이 LAION-5B 데이터셋에 나열되어 있는 것을 발견했습니다. 2023년 1월에 제기된 집단 소송 Andersen et al. v. Stability AI LTD et al.에서는 Stability AI, Midjourney 및 DeviantArt에 대한 주장에 LAION도 포함되었습니다. 원고들은 Stability AI가 수억 개의 저작권 이미지를 불법적으로 다운로드했으며, LAION이 Stable Diffusion을 위한 스크랩 데이터를 제공했다고 주장했습니다.

수상 경력이 있는 아티스트 카를라 오르티즈는 10월 FTC 패널에서 LAION-5B 데이터셋과 관련한 우려를 표명했습니다. 그녀는 “LAION-5B에는 내 작업과 내가 아는 많은 이들의 작업이 포함된 58억 개의 텍스트-이미지 쌍이 있습니다. 지적 재산권을 넘어서, 개인 의료 기록, 비동의 포르노, 아동 사진과 같은 심각한 문제가 포함되어 있습니다.”라고 언급했습니다.

AI 분야의 저명한 인물이자 전 구글 브레인 부서장인 앤드류 응은 LAION과 같은 데이터셋 접근 제한이 미칠 잠재적 영향에 대해 우려를 표했습니다. 그는 DeepLearning.ai 뉴스레터에서 최근 머신러닝의 성공이 풍부하고 무료로 이용 가능한 데이터에 의존해 왔음을 강조하며, 핵심 데이터셋 접근 제한이 예술, 교육 및 약물 개발 등 여러 분야의 발전을 저해할 것이라고 주장했습니다.

LAION(대규모 AI 오픈 네트워크)은 AI 애호가들과의 Discord 대화에서 영감을 받아 공동 설립된 크리스토프 슈만이 주도했습니다. 그는 이미지-텍스트 모델 훈련을 위한 오픈소스 데이터셋을 구축하고자 했습니다. 몇 주 만에 LAION은 300만 개의 이미지-텍스트 쌍을 모았고, 결국 50억 개 이상으로 확장되었습니다.

LAION은 또한 오픈소스 AI에 대한 논의에 참여하며 연구를 가속화하고 대규모 AI 모델을 위한 국제 협력 컴퓨팅 클러스터를 지지해왔습니다. 특히 LAION은 쇼피파이, 이베이 및 아마존과 같은 온라인 쇼핑 플랫폼에서 시각 데이터를 수집했으며, 최근 앨런 AI 연구소의 연구자들이 LAION-5B의 하위 집합인 LAION-2B에 대한 연구에서 약 6%의 데이터 문서가 쇼피파이에서 기원했음을 발견하여, AI 모델 훈련에 사용되는 이미지 데이터의 출처에 대한 추가 조사가 필요함을 강조했습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles