儿童性虐待图像被移除后，自由AI图像数据集引发争议

Home AI News CN 儿童性虐待图像被移除后，自由AI图像数据集引发争议

Updated on 十二月 19 2023

最近，斯坦福互联网观察所发布的一份报告揭示，LAION-5B数据集——一个被广泛用于训练流行文本到图像生成器（如Stable Diffusion 1.5和Google的Imagen）的开源AI资源——至少包含1008个儿童性虐待材料（CSAM）的实例，更多的内容还存在怀疑。该数据集于2022年3月发布，包含超过50亿张来自互联网的图片及其相关说明。报告引发了人们的担忧，即数据集中CSAM的存在可能使得基于这些数据训练的AI系统生成新的、潜在真实的儿童虐待图像。

为此，LAION向404媒体表示，他们将暂时移除这些数据集，以“过度谨慎”的态度确保其安全，然后再重新发布。

LAION的数据集之前也遭到过审查。2021年10月，认知科学家阿贝巴·比哈内（Abeba Birhane）发表了一篇分析LAION-400M（一个较早的数据集）的论文，指出该数据集中存在大量问题内容，包括与强奸及色情相关的露骨图片和文字。

在2022年9月，艺术家拉皮娜（Lapine）在使用“我被训练过吗”(Have I Been Trained)网站时，发现其2013年由医生拍摄的私人医疗记录照片被列入LAION-5B数据集中。

2023年1月，安德森等人诉讼一案（Andersen et al. v. Stability AI LTD et al.）将LAION列入对Stability AI、Midjourney和DeviantArt的指控中。原告声称Stability AI非法下载了数十亿张受版权保护的图片，而LAION则被指控提供了用于创建Stable Diffusion的爬取数据。

杰出艺术家卡拉·奥尔蒂斯（Karla Ortiz）在10月的FTC小组讨论中，表达了对LAION-5B数据集的担忧。她指出：“LAION-5B包含58亿个文本和图像对，其中包括我的作品和几乎所有我认识的人。除了知识产权外，它还包含非常令人担忧的材料，如私人医疗记录、非自愿色情内容和儿童图像。”

人工智能领域的知名人物、前谷歌大脑负责人安德鲁·吴（Andrew Ng）对限制访问像LAION这样的数据集可能带来的影响表示关切。在他的DeepLearning.ai新闻简报中，他强调，近期机器学习的成功依赖于大量、自由可用的数据。他认为，限制关键数据集的访问将阻碍艺术、教育和药物开发等多个领域的进展，同时敦促AI社区提高数据收集和使用的透明度。

LAION，即大规模AI开放网络（Large-scale AI Open Network），由克里斯托夫·舒曼（Christoph Schuhmann）共同创办，他的灵感来源于与Discord上的AI爱好者互动。最初，他旨在建立一个用于训练图像到文本模型的开源数据集。不久后，LAION就积累了300万对图文数据，最终扩展至超过50亿对。

LAION还积极参与有关开源AI的讨论，倡导加速研究和建立一个国际合作计算集群以支持大规模AI模型。值得注意的是，LAION从在线购物平台如Shopify、eBay和亚马逊获取视觉数据，艾伦人工智能研究所的研究人员最近对LAION-2B-en（LAION-5B的一个子集）进行了研究，发现大约6%的数据来自Shopify，这突显了对用于训练AI模型的图像数据来源的进一步调查需求。

Fable推出开源AI工具，助力未来《西部世界》模拟革命

引入AppOmni全新AI驱动的SaaS安全专家：利用生成技术提升保护能力