세계 최대 AI 훈련 데이터셋 중 하나의 대규모 확장이 품질과 규모의 향상을 약속합니다.

대규모 AI 훈련 데이터셋, 즉 코퍼스는 "대형 언어 모델(LLM)의 중추"로 여겨집니다. 2023년, EleutherAI는 세계에서 가장 큰 오픈소스 텍스트 코퍼스 중 하나인 825 GB 규모의 Pile을 제작하여 주목을 받았습니다. 이 조직은 2020년에 OpenAI의 GPT-3을 탐색하기 위해 디스코드 집단으로 설립된 풀뿌리 비영리단체로, OpenAI의 GPT-4와 Meta의 Llama와 같은 인기 LLM을 훈련하는 데 사용된 데이터셋에 대한 법적 및 윤리적 우려가 커지면서 비판받았습니다.

EleutherAI는 생성 AI에 관한 여러 소송에서 언급되었습니다. 아칸소 전 주지사 마이크 허커비와 여러 저자들이 10월에 제기한 주요 사건에서는 그들의 책이 Pile 프로젝트에 기여한 18만 개 이상의 작품을 포함하는 논란의 여지가 있는 데이터셋 Books3에 포함되었다고 주장했습니다. Books3는 2020년에 Shawn Presser에 의해 업로드되었고, 덴마크의 반복소 그룹으로부터 법적 통지를 받은 후 2023년 8월에 삭제되었습니다.

이러한 도전에도 불구하고 EleutherAI는 토론토 대학교와 앨런 AI 연구소, 독립 연구자들과 협력하여 Pile 데이터셋의 업데이트된 버전을 개발 중입니다. EleutherAI의 전무 이사 스텔라 비더먼과 정책 및 윤리 담당 책임자 아비야 스코론은 공동 인터뷰에서 새로운 Pile이 몇 달 내에 최종 완료될 것이라고 밝혔습니다.

업데이트된 Pile은 기존보다 훨씬 크고 "상당히 개선될 것"이라고 비더먼은 말했습니다. "새로운 데이터가 많이 포함될 것입니다."라고 그녀는 강조하며, 이전에 보지 못한 정보들이 추가될 것임을 언급했습니다. 새로운 데이터셋은 2020년 12월에 발표된 원본보다 더 최근의 정보를 포함하게 되며, 이는 Pythia 및 Stability AI의 Stable LM과 같은 모델의 훈련에 사용되었습니다. 비더먼은 거의 12개 LLM을 훈련하면서 얻은 교훈을 반영하여 데이터 전처리 방법이 개선되었다고 강조했습니다. "우리가 Pile을 만들 당시에는 LLM을 훈련한 적이 없었습니다. 이제 우리는 최적의 LLM 사용을 위한 데이터 정제에 관해 귀중한 통찰을 얻었습니다."

업데이트된 데이터셋은 더 나은 품질과 다양한 데이터 포함을 강조할 것입니다. "우리는 훨씬 더 많은 책과 다양한 비학술적 논픽션 작품을 포함할 계획입니다."라고 그녀는 설명했습니다.

원본 Pile은 Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, YouTube 자막, Enron 이메일 등을 포함한 22개의 하위 데이터셋으로 구성되었습니다. 비더먼은 Pile이 세계에서 가장 잘 문서화된 LLM 훈련 데이터셋이라고 언급했습니다. 이 이니셔티브의 목표는 수십억 개의 텍스트 구절로 구성된 광범위한 데이터셋을 구축하여 OpenAI의 GPT-3 훈련 규모에 필적하는 것이었습니다.

"2020년에 도입된 Pile은 독특했기 때문에 중요한 역할을 했습니다."라고 비더먼은 말했습니다. 그 당시 공개된 대형 텍스트 코퍼스는 오직 하나, 즉 Google이 여러 언어 모델에 사용한 C4뿐이었습니다. "하지만 C4는 더 작고 덜 다양합니다."라고 설명하며, 그것을 세밀한 Common Crawl 스크랩으로 묘사했습니다.

EleutherAI의 Pile 제작 방식은 모델 지식을 풍부하게 하기 위한 정보와 주제의 선별적 선정을 포함하였습니다. "Pile의 75% 이상이 특정 도메인에서 수집되었습니다."라고 그녀는 강조했습니다. "우리의 목표는 세계에 대한 의미 있는 통찰을 제공하는 것이었습니다."

스코론은 EleutherAI의 모델 훈련 및 공정 사용에 대한 입장을 설명하며 "현재의 LLM은 저작권 데이터에 의존합니다."라고 언급했습니다. Pile v2 프로젝트의 하나의 목표는 저작권 및 데이터 라이선스와 관련된 문제를 다루는 것입니다. 새로운 Pile 데이터셋은 공공 영역 작품, 크리에이티브 커먼즈 라이선스의 텍스트, 정부 문서를 포함해 법적 기준을 준수할 것입니다. 또한 권리 보유자에게서 명시적인 권한을 얻은 데이터셋도 포함될 것입니다.

AI 훈련 데이터셋에 대한 비판은 2022년 11월 ChatGPT 출시 이후 활발해졌으며, 저작권 침해 문제에 대한 우려를 제기했습니다. 그 결과 아티스트, 작가, 출판사로부터 제기된 일련의 생성 AI 소송은 OpenAI와 Microsoft에 대한 뉴욕 타임즈의 소송을 포함한 중대한 법적 문제로 이어졌습니다.

AI 훈련 데이터에 대한 논쟁은 복잡합니다. 비더먼과 스코론은 LAION-5B 데이터셋에서 아동 성학대 이미지가 발견되는 등 도덕적으로 우려되는 사례를 해결하는 것이 중요하다고 강조했습니다. 비더먼은 LAION과 같은 조직이 그러한 콘텐츠를 분류하는 데 사용한 방법론이 법적으로 접근 가능하지 않을 수도 있다고 언급했습니다.

그들은 또한 AI 모델 훈련에 사용된 자신의 작품에 대해 우려하는 창작자들의 입장을 인정하며, 많은 이들이 AI의 발전을 예상하지 않고 퍼미션 라이선스 하에 이를 제공했다고 설명했습니다. "사후적으로 볼 때, 많은 이들이 다른 라이선스 옵션을 선택했을 것"이라고 비더먼은 회상했습니다.

한때 연구 도구로 여겨졌던 AI 훈련 데이터셋은 상업적 제품으로 전환되었습니다. "현재의 주 목적은 제작입니다."라고 비더먼은 말하며 AI 모델 훈련의 상업적 의미의 증가를 강조했습니다.

흥미롭게도 비더먼과 스코론은 Pile과 같은 오픈 데이터셋으로 훈련된 AI 모델이 더 안전하다고 주장했습니다. 데이터의 가시성이 증가함에 따라 다양한 맥락에서 윤리적 사용이 촉진되기 때문입니다. "많은 정책 목표를 달성하려면 투명성이 필요하며, 철저한 훈련 문서화가 포함되어야 합니다."라고 스코론은 말했습니다.

EleutherAI가 Pile을 계속 개선함에 따라 비더먼은 새로운 모델을 조만간 출시할 수 있기를 희망한다고 전했습니다. "우리는 이 작업을 약 1년 반 동안 진행해왔으며, 결과를 기대하고 있습니다. 작은 변화지만 의미 있는 차이를 만들어 낼 것이라 생각합니다."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles