Getty Images стремится стать надежным партнером по данным в области ИИ. Известная тем, что облегчает поиск, обмен и покупку визуального контента от глобального пула фотографов и видеографов, компания анонсировала выпуск образца открытого набора данных на Hugging Face.
Хотя на платформе Hugging Face доступно множество визуальных наборов данных, Getty Images утверждает, что ее предложение уникально надежно и безопасно с коммерческой точки зрения. Эта уверенность позволяет разработчикам интегрировать набор данных в свои ИИ-тренировочные пайплайны, минимизируя опасения по поводу качества и юридических сложностей.
Как объяснил Андреа Гальяно, руководитель отдела науки о данных и ИИ/МЛ в Getty Images: «Представьте, как вы можете улучшить возможности ИИ/МЛ с помощью данных, которые разнообразны и высокого качества, ответственно собранные. Вот что мы предоставляем.»
Долгосрочная цель Getty – создать экосистему, в которой разработчики ИИ будут предпочитать использовать официально лицензированный контент с ее платформы для обучения своих моделей.
Что включает в себя набор данных Getty Images?
Разработчики часто сталкиваются с проблемами, когда имеют дело с плохо собранными, низкокачественными данными во время тренировки моделей ИИ/МЛ. Чтобы справиться с этой проблемой, они обычно тратят много времени на очистку и обогащение своих наборов данных — удаление дубликатов, поврежденных файлов и нерелевантного контента, такого как изображения знаменитостей, товарные знаки, низкокачественные изображения и материалы, лишенные необходимых метаданных.
Этот трудоемкий процесс может привести к неэффективности и потенциальным юридическим спорам, так как вредоносные или защищенные авторским правом материалы могут ненароком оказаться в выходных данных модели.
Открытый набор данных Getty Images стремится преодолеть эти препятствия, предоставляя курированную коллекцию высококачественных изображений в 15 категориях. «Этот образец набора данных содержит 3,750 изображений из таких категорий, как абстракции, построенные среды, бизнес, образование, здравоохранение, промышленность, природа, иллюстрации и путешествия», — уточнил Гальяно.
Чистый и курированный контент
Набор данных поступает исключительно из творческой библиотеки Getty, что гарантирует безопасность всех изображений для коммерческого использования. Разработчики могут использовать этот курированный набор без необходимости в очистке или обогащении, так как он специально создан для обучения машинного обучения, включает изображения высокого разрешения и обширные структурированные метаданные, свободные от нежелательных элементов, таких как контент для взрослых. Гальяно описывает его как «самый чистый и высокого качества набор данных» для обучения моделей ИЛ.
Условия использования
Хотя образец набора данных открыт для использования, определенные условия гарантируют, что лицензированный контент применяется ответственно для коммерческих приложений и академических исследований. Ограничения включают:
- Запрет на перераспределение набора данных
- Запрет на разработку моделей или программного обеспечения, которые воспроизводят или генерируют копии содержимого набора данных
- Запрет на создание продуктов или услуг, которые напрямую конкурируют с Getty Images
- Запрет на использование биометрических идентификаторов, полученных из набора данных
- Соблюдение всех соответствующих законов и нормативных актов
С помощью этой инициативы Getty Images стремится привлечь сообщество разработчиков, демонстрируя широкий спектр контента и позиционируя себя в качестве «надежного партнера» для высококачественных лицензированных данных для ответственного обучения ИИ.
Гальяно подчеркивает: «Наша цель – продемонстрировать, что возможно учитывать лицензирование для всего контента, необходимого для обучения функциональных моделей ИИ, уважаю интеллектуальную собственность создателей». Разработчики, заинтересованные в дополнительных данных, могут обратиться к Getty Images для получения индивидуальных вариантов лицензирования. Этот подход гарантирует, что оригинальные создатели контента получают ежегодную компенсацию, что также является частью модели, примененной Getty Images для инструмента генерации изображений на основе ИИ, разработанного в партнерстве с Nvidia.