最近,斯坦福互联网观察所发布的一份报告揭示,LAION-5B数据集——一个被广泛用于训练流行文本到图像生成器(如Stable Diffusion 1.5和Google的Imagen)的开源AI资源——至少包含1008个儿童性虐待材料(CSAM)的实例,更多的内容还存在怀疑。该数据集于2022年3月发布,包含超过50亿张来自互联网的图片及其相关说明。报告引发了人们的担忧,即数据集中CSAM的存在可能使得基于这些数据训练的AI系统生成新的、潜在真实的儿童虐待图像。
为此,LAION向404媒体表示,他们将暂时移除这些数据集,以“过度谨慎”的态度确保其安全,然后再重新发布。
LAION的数据集之前也遭到过审查。2021年10月,认知科学家阿贝巴·比哈内(Abeba Birhane)发表了一篇分析LAION-400M(一个较早的数据集)的论文,指出该数据集中存在大量问题内容,包括与强奸及色情相关的露骨图片和文字。
在2022年9月,艺术家拉皮娜(Lapine)在使用“我被训练过吗”(Have I Been Trained)网站时,发现其2013年由医生拍摄的私人医疗记录照片被列入LAION-5B数据集中。
2023年1月,安德森等人诉讼一案(Andersen et al. v. Stability AI LTD et al.)将LAION列入对Stability AI、Midjourney和DeviantArt的指控中。原告声称Stability AI非法下载了数十亿张受版权保护的图片,而LAION则被指控提供了用于创建Stable Diffusion的爬取数据。
杰出艺术家卡拉·奥尔蒂斯(Karla Ortiz)在10月的FTC小组讨论中,表达了对LAION-5B数据集的担忧。她指出:“LAION-5B包含58亿个文本和图像对,其中包括我的作品和几乎所有我认识的人。除了知识产权外,它还包含非常令人担忧的材料,如私人医疗记录、非自愿色情内容和儿童图像。”
人工智能领域的知名人物、前谷歌大脑负责人安德鲁·吴(Andrew Ng)对限制访问像LAION这样的数据集可能带来的影响表示关切。在他的DeepLearning.ai新闻简报中,他强调,近期机器学习的成功依赖于大量、自由可用的数据。他认为,限制关键数据集的访问将阻碍艺术、教育和药物开发等多个领域的进展,同时敦促AI社区提高数据收集和使用的透明度。
LAION,即大规模AI开放网络(Large-scale AI Open Network),由克里斯托夫·舒曼(Christoph Schuhmann)共同创办,他的灵感来源于与Discord上的AI爱好者互动。最初,他旨在建立一个用于训练图像到文本模型的开源数据集。不久后,LAION就积累了300万对图文数据,最终扩展至超过50亿对。
LAION还积极参与有关开源AI的讨论,倡导加速研究和建立一个国际合作计算集群以支持大规模AI模型。值得注意的是,LAION从在线购物平台如Shopify、eBay和亚马逊获取视觉数据,艾伦人工智能研究所的研究人员最近对LAION-2B-en(LAION-5B的一个子集)进行了研究,发现大约6%的数据来自Shopify,这突显了对用于训练AI模型的图像数据来源的进一步调查需求。