Getty Images는 AI 분야에서 신뢰할 수 있는 데이터 파트너가 되기 위해 노력하고 있습니다. 세계적으로 유명한 사진작가와 비디오 작가들로부터 시각 콘텐츠를 발견하고 공유하며 구매하는 데 도움을 주는 이 회사는 Hugging Face에서 샘플 공개 데이터를 발표했습니다.
Hugging Face 허브에는 다양한 시각 데이터셋이 있지만, Getty Images는 자신들의 데이터셋이 유일하게 신뢰할 수 있고 상업적으로 안전하다고 주장합니다. 이러한 보장은 기업 개발자들이 품질이나 법적 문제에 대한 우려 없이 데이터셋을 AI 교육 파이프라인에 통합할 수 있는 신뢰를 제공합니다. Getty Images의 데이터 과학 및 AI/ML 책임자인 안드레아 가리아노는 "책임감 있게 수집된 다양한 고품질 데이터를 통해 AI/ML 기능을 향상시키는 것을 상상해 보세요. 그것이 바로 우리가 제공하는 것입니다."라고 설명했습니다.
Getty의 장기적인 목표는 AI 개발자들이 모델 교육을 위해 공식 라이센스를 보유한 콘텐츠를 선호하는 생태계를 조성하는 것입니다.
Getty Images 데이터셋에는 무엇이 포함되나요?
개발자들은 AI/ML 모델 교육 시 품질이 낮거나 불완전한 데이터를 처리할 때 어려움을 겪곤 합니다. 이를 해결하기 위해 그들은 일반적으로 중복, 손상된 파일 및 유명인 이미지, 상표, 저해상도 이미지, 적절한 메타데이터가 없는 자료와 같은 관련 없는 콘텐츠를 제거하며 데이터셋을 정리하고 풍부하게 만드는 데 많은 시간을 소모합니다.
이런 시간 소모적인 과정은 비효율성과 잠재적인 법적 분쟁을 초래할 수 있습니다. Getty Images의 공개 데이터셋은 15개 카테고리의 고품질 이미지를 제공하여 이러한 장애물을 극복하고자 합니다. 가리아노는 "이 샘플 데이터셋은 추상, 건축 환경, 비즈니스, 교육, 의료, 산업, 자연, 일러스트 및 여행 등 카테고리에서 3,750개의 이미지를 포함하고 있습니다."라고 자세히 설명했습니다.
정리된 고품질 콘텐츠
이 데이터셋은 Getty의 자체 창작 라이브러리에서 제공되어 모든 이미지가 상업적으로 안전하게 사용될 수 있도록 보장합니다. 개발자들은 청소나 보강의 부담 없이 이 큐레이트된 세트를 활용할 수 있으며, 이는 기계 학습 훈련을 위해 특별히 설계되어 고해상도 이미지와 풍부한 구조화된 메타데이터를 제공합니다. 가리아노는 이를 "가장 깨끗하고 고품질의 데이터셋"이라고 설명했습니다.
사용 조건
샘플 데이터셋은 자유롭게 사용 가능하지만, 라이센스 콘텐츠가 상업적 응용 및 학술 연구에서 책임감 있게 사용되도록 하기 위한 조건이 있습니다. 제한 사항은 다음과 같습니다:
- 데이터셋의 재배포 금지
- 데이터셋 콘텐츠를 재현하거나 생성하는 모델 또는 소프트웨어 개발 금지
- Getty Images와 직접 경쟁하는 제품 또는 서비스 생성 금지
- 데이터셋에서 파생된 생체 식별자 사용 금지
- 모든 관련 법률 및 규정 준수
이 이니셔티브를 통해 Getty Images는 개발자 커뮤니티와의 소통을 강화하고 있으며, 다양한 콘텐츠 범위를 보여주고 신뢰할 수 있는 고품질 라이센스 데이터의 "신뢰할 수 있는 파트너"로 자리매김하고자 합니다. 가리아노는 "우리의 목표는 기능적인 AI 모델 교육에 필요한 모든 콘텐츠에 대한 라이센스를 고려할 수 있음을 보여주는 것입니다."라고 강조했습니다. 추가 데이터가 필요한 개발자는 Getty Images에 커스터마이즈된 라이센스 옵션을 문의할 수 있습니다.
이러한 접근 방식은 원본 콘텐츠 제작자가 연간 보상을 받을 수 있도록 보장하며, 이는 Nvidia와의 파트너십을 통해 개발된 AI 이미지 생성 도구에도 적용된 모델입니다.