MIT, Cohere for AI, 및 11개 기관의 연구자들이 오늘 AI의 데이터 투명성 문제를 해결하기 위해 데이터 출처 플랫폼(Data Provenance Platform)을 출시했습니다. 이들은 2,000개 이상의 널리 사용되는 파인튜닝 데이터셋을 감사하고 추적했으며, 이들 데이터셋은 수억 번 다운로드되어 많은 자연어 처리(NLP) 혁신의 기초가 됩니다. MIT 미디어랩 박사 과정 학생인 셰인 롱프레와 Cohere for AI의 수장인 사라 후커는 "이번 다학제적 노력의 결과는 지금까지 가장 큰 AI 데이터셋 감사입니다."라고 밝혔습니다. 처음으로 이들 데이터셋에는 원본 데이터 출처, 여러 번의 재라이센스, 제작자 및 기타 관련 데이터 속성을 식별하는 태그가 추가되었습니다.
사용성을 높이기 위해, 개발자들이 법적 및 윤리적 기준에 따라 수천 개의 데이터셋을 추적하고 필터링할 수 있는 인터랙티브 플랫폼인 데이터 출처 탐색기(Data Provenance Explorer)가 제공됩니다. 이 자원은 학자와 언론인들이 인기 있는 AI 데이터셋의 구성 및 연계를 조사하는 데 유용합니다.
데이터셋 수집의 기원 무시에 대한 문제
이탈리노는 '데이터 출처 이니셔티브: AI의 대규모 데이터셋 라이센스 및 저작권 감사'라는 제목의 논문에서 이들은 중요한 문제를 강조합니다. "널리 사용되는 데이터셋 컬렉션은 다양한 출처의 계보를 인식하기보다는 단일체로 간주되는 경향이 있습니다. 이러한 데이터셋은 종종 여러 번 재패키지되고 라이센스화되며, 다양한 실무자들에 의해 수집, 생성, 큐레이팅 및 주석이 추가됩니다."
이러한 계보를 인정하는 것에 대한 유인 감소는 대규모 데이터 수집의 복잡성과 저작권 검토 강화로 인해 발생합니다. 결과적으로 데이터시트의 사용이 감소하고 훈련 출처에 대한 정보 공개가 부족해져 훈련 데이터에 대한 이해가 훼손되었습니다. 이 지식의 불균형은 훈련 및 테스트 데이터셋 간의 데이터 누출, 개인 식별 정보(PII)의 노출, 의도하지 않은 편향이나 행동, 그리고 예상보다 낮은 품질의 모델로 이어질 수 있습니다. 또한 이러한 격차는 모델 출시와 데이터 사용 조건 간의 충돌과 같은 중요한 윤리적 및 법적 위험을 초래합니다. 데이터 훈련이 비싸고 대부분 되돌릴 수 없기 때문에 이러한 문제는 쉽게 해결되지 않습니다.
2023년 훈련 데이터셋에 대한 증가하는 검토
2023년 동안, 미디어는 데이터 출처와 훈련 데이터셋의 투명성 문제를 강조했습니다. 예를 들어, 3월에 라이트닝 AI CEO 윌리엄 팔콘은 OpenAI의 GPT-4 논문이 "연구로 가장하고 있다"고 비판하며 중요한 세부 정보의 부족을 강조했습니다. 보고서의 "범위 및 한계" 섹션에서는 GPT-4와 같은 대규모 모델에 대한 경쟁 및 안전 문제로 인해 아키텍처, 데이터셋 구성 및 훈련 방법에 대한 정보의 제외를 지적했습니다.
9월에는 생성 AI 훈련 데이터에 관한 저작권 문제를 다룬 상세 분석이 발표되었습니다. 분산 AI 연구소(DAIR)의 연구 책임자인 알렉스 하나 박사는 생성 AI의 급속한 확산이 저작권 없는 콘텐츠의 사용에 대한 중대한 우려를 불러일으켰다고 밝히며, 이러한 긴급한 도전 과제에 대해 언급했습니다.