最近,斯坦福網絡觀察所發表的一份報告顯示,LAION-5B數據集——一個在訓練流行的文本轉圖像生成器(如Stable Diffusion 1.5和Google的Imagen)中使用的重要開源AI資源——至少包含1,008例兒童性虐待材料(CSAM),且懷疑還有成千上萬例。該數據集於2022年3月發布,涵蓋超過50億張來自互聯網的圖像及其相關標題。報告引發了對CSAM存在於數據集中可能導致基於此數據訓練的AI系統生成新且潛在現實的兒童虐待描繪的擔憂。
作為回應,LAION向404 Media宣布,出於謹慎考量,它將暫時移除這些數據集,以確保安全後再重新發布。
LAION的數據集曾面臨審查。2021年10月,認知科學家Abeba Birhane發表了一篇分析LAION-400M(早期數據集)的論文,指出其中存在大量問題內容,包括與強姦和色情相關的明確圖像和文字。
2022年9月,藝術家Lapine在使用“Have I Been Trained”網站(幫助用戶查找其作品在AI訓練數據集中是否存在)時,發現她2013年由醫生拍攝的私人醫療記錄照片出現在LAION-5B數據集中。
2023年1月提起的集體訴訟案Andersen等訴Stability AI LTD等,對Stability AI、Midjourney和DeviantArt提出了指控,其中包括LAION。原告聲稱Stability AI非法下載了數十億張受版權保護的圖片,而LAION則涉嫌提供了用於創建Stable Diffusion的抓取數據。
獲獎藝術家Karla Ortiz,曾與工業光魔和Marvel Studios等頂尖公司合作,在10月的FTC小組會議上談及LAION-5B數據集的相關擔憂。她指出:“LAION-5B包含58億對文本和圖像,其中包括我和幾乎所有我認識的人的作品。除了智慧財產權外,還包含如私人醫療記錄、非自願色情和兒童圖像等深具擔憂的材料。”
AI領域的知名人物、前Google Brain負責人Andrew Ng對限制對LAION等數據集的訪問可能產生的影響表示擔憂。在他的DeepLearning.ai通訊中,他強調了近期機器學習進展的成功依賴於豐富和免費可用數據的訪問。他認為,限制對關鍵數據集的訪問將妨礙藝術、教育和藥物開發等多個領域的進展,同時呼籲AI社區加強數據收集和使用的透明度。
LAION(大型開源AI網路)由Christoph Schuhmann共同創辦,他在與Discord上的AI愛好者互動時受到啟發,旨在建立一個用於訓練圖像到文本模型的開源數據集。在幾周內,LAION便收集了300萬對圖像和文本,最終擴展至超過50億。
LAION還參與了有關開源AI的討論,倡導加速研究並建立國際協作計算集群以支持大規模AI模型的發展。值得注意的是,LAION從在線購物平台如Shopify、eBay和Amazon中獲取視覺數據,艾倫人工智慧研究所的研究人員最近在對LAION-2B-en(LAION-5B的一個子集)進行研究時發現,約6%的數據集文件源自Shopify,突顯了對用於訓練AI模型的圖像數據來源進一步調查的必要性。