Getty Images 推出最“乾淨”的視覺數據集，用於訓練人工智慧基礎模型

Home AI新聞 Getty Images 推出最“乾淨”的視覺數據集，用於訓練人工智慧基礎模型

Getty Images 致力於成為 AI 領域值得信賴的數據合作夥伴。該公司以促進全球攝影師和影像創作者的視覺內容發現、分享和購買而聞名，並宣布在 Hugging Face 上發布一個樣本開放數據集。

儘管 Hugging Face 中有許多視覺數據集，Getty Images 斷言其提供的數據集具有獨特的可靠性和商業安全性。這一保障使企業開發者能夠自信地將該數據集整合進他們的 AI 訓練流程，減少對質量或法律問題的擔憂。

Getty Images 的數據科學及 AI/ML 負責人 Andrea Gagliano 表示：「想像一下，利用多樣且高品質、負責任獲取的數據來增強您的 AI/ML 能力。這正是我們所提供的。」

Getty 的長期目標是促進一個生態系統，讓 AI 開發者更喜歡使用其平台的正式授權內容來訓練模型。

Getty Images 數據集包含什麼？

開發者在 AI/ML 模型訓練中常面對來源不佳、質量低的數據挑戰。為了改善這一現狀，他們通常需要投入大量精力清理和豐富自己的數據集——去除重複、損壞的文件以及如名人圖像、商標、低解析度圖片和缺少適當元數據的材料。

這一耗時的過程可能導致效率低下和潛在的法律糾紛，因為有害或受版權保護的材料可能無意中進入模型輸出。

Getty Images 的開放數據集旨在克服這些障礙，提供一個涵蓋 15 個類別的高質量圖像精選集。「這個樣本數據集包含 3,750 張來自抽象、建築環境、商業、教育、醫療、工業、自然、插圖和旅行等類別的圖像，」Gagliano 詳細說明。

乾淨且經過策劃的內容

該數據集全部來自 Getty 自有的創意庫，確保所有圖像在商業使用上是安全的。開發者可以無需清理或豐富這一策劃集，因為它專門為機器學習訓練設計，擁有高解析度圖像和豐富的結構化元數據，並且不包含像 NSFW 內容這樣的不當元素。Gagliano 將其形容為「最乾淨、最高質量的數據集」，可用於訓練 ML 模型。

使用條件

雖然樣本數據集可供使用，但某些使用條件確保授權內容在商業應用和學術研究中的負責使用。限制包括：

- 不可重新分發數據集

- 不可開發重建或生成數據集內容的模型或軟件

- 不可創建與 Getty Images 直接競爭的產品或服務

- 不可使用從數據集中導出的生物識別標識

- 遵守所有相關法律和法規

通過這一倡議，Getty Images 旨在與開發者社區互動，展示其提供的廣泛內容，並將自己定位為負責任的 AI 訓練高品質授權數據的「可信夥伴」。Gagliano 強調：「我們的目標是證明可以在尊重創作者知識產權的同時，為訓練功能性 AI 模型提供所需的所有內容授權。」尋求更多數據的開發者可以聯繫 Getty Images 獲取量身定制的授權選項。

這一做法確保了原創內容創作者每年獲得補償，這一模式還被 Getty Images 應用於其與 Nvidia 合作開發的 AI 圖像生成工具上。

準備好迎接GPU價格波動的不可預測時代

人工智慧是銷售的未來嗎？Salesforce的創新模式如何徹底改變這個行業