Getty Images 致力於成為 AI 領域值得信賴的數據合作夥伴。該公司以促進全球攝影師和影像創作者的視覺內容發現、分享和購買而聞名,並宣布在 Hugging Face 上發布一個樣本開放數據集。
儘管 Hugging Face 中有許多視覺數據集,Getty Images 斷言其提供的數據集具有獨特的可靠性和商業安全性。這一保障使企業開發者能夠自信地將該數據集整合進他們的 AI 訓練流程,減少對質量或法律問題的擔憂。
Getty Images 的數據科學及 AI/ML 負責人 Andrea Gagliano 表示:「想像一下,利用多樣且高品質、負責任獲取的數據來增強您的 AI/ML 能力。這正是我們所提供的。」
Getty 的長期目標是促進一個生態系統,讓 AI 開發者更喜歡使用其平台的正式授權內容來訓練模型。
Getty Images 數據集包含什麼?
開發者在 AI/ML 模型訓練中常面對來源不佳、質量低的數據挑戰。為了改善這一現狀,他們通常需要投入大量精力清理和豐富自己的數據集——去除重複、損壞的文件以及如名人圖像、商標、低解析度圖片和缺少適當元數據的材料。
這一耗時的過程可能導致效率低下和潛在的法律糾紛,因為有害或受版權保護的材料可能無意中進入模型輸出。
Getty Images 的開放數據集旨在克服這些障礙,提供一個涵蓋 15 個類別的高質量圖像精選集。「這個樣本數據集包含 3,750 張來自抽象、建築環境、商業、教育、醫療、工業、自然、插圖和旅行等類別的圖像,」Gagliano 詳細說明。
乾淨且經過策劃的內容
該數據集全部來自 Getty 自有的創意庫,確保所有圖像在商業使用上是安全的。開發者可以無需清理或豐富這一策劃集,因為它專門為機器學習訓練設計,擁有高解析度圖像和豐富的結構化元數據,並且不包含像 NSFW 內容這樣的不當元素。Gagliano 將其形容為「最乾淨、最高質量的數據集」,可用於訓練 ML 模型。
使用條件
雖然樣本數據集可供使用,但某些使用條件確保授權內容在商業應用和學術研究中的負責使用。限制包括:
- 不可重新分發數據集
- 不可開發重建或生成數據集內容的模型或軟件
- 不可創建與 Getty Images 直接競爭的產品或服務
- 不可使用從數據集中導出的生物識別標識
- 遵守所有相關法律和法規
通過這一倡議,Getty Images 旨在與開發者社區互動,展示其提供的廣泛內容,並將自己定位為負責任的 AI 訓練高品質授權數據的「可信夥伴」。Gagliano 強調:「我們的目標是證明可以在尊重創作者知識產權的同時,為訓練功能性 AI 模型提供所需的所有內容授權。」尋求更多數據的開發者可以聯繫 Getty Images 獲取量身定制的授權選項。
這一做法確保了原創內容創作者每年獲得補償,這一模式還被 Getty Images 應用於其與 Nvidia 合作開發的 AI 圖像生成工具上。