MIT와 Cohere가 협력하여 감사된 AI 데이터셋을 추적하고 필터링하는 플랫폼을 출시했습니다.

Home AI 뉴스 MIT와 Cohere가 협력하여 감사된 AI 데이터셋을 추적하고 필터링하는 플랫폼을 출시했습니다.

MIT, Cohere for AI, 및 11개 기관의 연구자들이 오늘 AI의 데이터 투명성 문제를 해결하기 위해 데이터 출처 플랫폼(Data Provenance Platform)을 출시했습니다. 이들은 2,000개 이상의 널리 사용되는 파인튜닝 데이터셋을 감사하고 추적했으며, 이들 데이터셋은 수억 번 다운로드되어 많은 자연어 처리(NLP) 혁신의 기초가 됩니다. MIT 미디어랩 박사 과정 학생인 셰인 롱프레와 Cohere for AI의 수장인 사라 후커는 "이번 다학제적 노력의 결과는 지금까지 가장 큰 AI 데이터셋 감사입니다."라고 밝혔습니다. 처음으로 이들 데이터셋에는 원본 데이터 출처, 여러 번의 재라이센스, 제작자 및 기타 관련 데이터 속성을 식별하는 태그가 추가되었습니다.

사용성을 높이기 위해, 개발자들이 법적 및 윤리적 기준에 따라 수천 개의 데이터셋을 추적하고 필터링할 수 있는 인터랙티브 플랫폼인 데이터 출처 탐색기(Data Provenance Explorer)가 제공됩니다. 이 자원은 학자와 언론인들이 인기 있는 AI 데이터셋의 구성 및 연계를 조사하는 데 유용합니다.

데이터셋 수집의 기원 무시에 대한 문제

이탈리노는 '데이터 출처 이니셔티브: AI의 대규모 데이터셋 라이센스 및 저작권 감사'라는 제목의 논문에서 이들은 중요한 문제를 강조합니다. "널리 사용되는 데이터셋 컬렉션은 다양한 출처의 계보를 인식하기보다는 단일체로 간주되는 경향이 있습니다. 이러한 데이터셋은 종종 여러 번 재패키지되고 라이센스화되며, 다양한 실무자들에 의해 수집, 생성, 큐레이팅 및 주석이 추가됩니다."

이러한 계보를 인정하는 것에 대한 유인 감소는 대규모 데이터 수집의 복잡성과 저작권 검토 강화로 인해 발생합니다. 결과적으로 데이터시트의 사용이 감소하고 훈련 출처에 대한 정보 공개가 부족해져 훈련 데이터에 대한 이해가 훼손되었습니다. 이 지식의 불균형은 훈련 및 테스트 데이터셋 간의 데이터 누출, 개인 식별 정보(PII)의 노출, 의도하지 않은 편향이나 행동, 그리고 예상보다 낮은 품질의 모델로 이어질 수 있습니다. 또한 이러한 격차는 모델 출시와 데이터 사용 조건 간의 충돌과 같은 중요한 윤리적 및 법적 위험을 초래합니다. 데이터 훈련이 비싸고 대부분 되돌릴 수 없기 때문에 이러한 문제는 쉽게 해결되지 않습니다.

2023년 훈련 데이터셋에 대한 증가하는 검토

2023년 동안, 미디어는 데이터 출처와 훈련 데이터셋의 투명성 문제를 강조했습니다. 예를 들어, 3월에 라이트닝 AI CEO 윌리엄 팔콘은 OpenAI의 GPT-4 논문이 "연구로 가장하고 있다"고 비판하며 중요한 세부 정보의 부족을 강조했습니다. 보고서의 "범위 및 한계" 섹션에서는 GPT-4와 같은 대규모 모델에 대한 경쟁 및 안전 문제로 인해 아키텍처, 데이터셋 구성 및 훈련 방법에 대한 정보의 제외를 지적했습니다.

9월에는 생성 AI 훈련 데이터에 관한 저작권 문제를 다룬 상세 분석이 발표되었습니다. 분산 AI 연구소(DAIR)의 연구 책임자인 알렉스 하나 박사는 생성 AI의 급속한 확산이 저작권 없는 콘텐츠의 사용에 대한 중대한 우려를 불러일으켰다고 밝히며, 이러한 긴급한 도전 과제에 대해 언급했습니다.

NatureEye, 세계적인 자연 명소 위에서 몰입감 넘치는 드론 체험을 선보입니다.

아마존, 혁신적인 AI 제품 이미지 생성기 출시

Most people like

Music.AI

123.1K

최첨단 AI 기술을 활용하여 혁신적인 오디오 기반 AI 솔루션을 생성하고 확장합니다.

AI 모델 AI Singing Generator

X - Model

85.5K

오늘날의 경쟁적인 환경에서 기업들은 지속적으로 제품 개선을 위한 혁신적인 솔루션을 모색하고 있습니다. AI 모델 통합 도구의 등장— 인공지능을 제품 개발 프로세스에 매끄럽게 통합하도록 설계된 첨단 플랫폼입니다. 이 도구는 AI 기능을 활용하여 제품의 기능을 향상시키고 성능을 최적화하며 사용자 참여를 촉진하여 귀사의 브랜드를 최전선에 위치시킵니다. AI 통합이 어떻게 귀사의 제품 제공을 혁신하고 고객 만족도를 높일 수 있는지 알아보십시오.

AI 모델 통합 AI Art Generator

Spicytool

5.5K

궁극적인 AI 기반 솔루션으로 Google Ads 캠페인을 제작하고 개선해보세요. 이 강력한 도구는 광고 생성 및 최적화를 혁신하여 비즈니스가 온라인 광고의 영향을 극대화할 수 있도록 지원합니다.

AI 기반 광고 AI Advertising Assistant

ContentRadar

링크드인과 X를 위해 특별히 설계된 AI 기반 콘텐츠 관리 작업공간으로 소셜 미디어 전략을 한 단계 끌어올리세요. 게시물 작성 과정을 간소화하고, 청중 참여를 강화하며, 콘텐츠 기획 프로세스를 효율화하세요. 인공지능의 힘으로 온라인 존재감을 변화시키고 네트워킹 잠재력을 극대화하세요!

AI 콘텐츠 관리 AI Social Media Assistant

Find AI tools in YBX