Um relatório recente do Stanford Internet Observatory revelou que o conjunto de dados LAION-5B, um recurso significativo de IA de código aberto utilizado no treinamento de geradores populares de texto para imagem como o Stable Diffusion 1.5 e o Imagen do Google, contém pelo menos 1.008 casos de material de abuso sexual infantil (CSAM), com milhares de outros suspeitos. Lançado em março de 2022, esse extenso conjunto de dados abrange mais de 5 bilhões de imagens e legendas associadas retiradas da internet. O relatório levanta preocupações de que a presença de CSAM no conjunto de dados possa levar sistemas de IA treinados com esses dados a gerar novas e potencialmente realistas representações de abusos infantis.
Em resposta, a LAION anunciou para a 404 Media que está removendo temporariamente seus conjuntos de dados "por uma questão de segurança" antes de relançá-los.
Os conjuntos de dados da LAION já enfrentaram escrutínio anteriormente. Em outubro de 2021, a cientista cognitiva Abeba Birhane publicou um artigo analisando o LAION-400M, um conjunto de dados anterior. Suas descobertas destacaram a presença de conteúdo altamente problemático, incluindo imagens e textos gráficos relacionados a estupro e pornografia.
Em setembro de 2022, a artista Lapine descobriu que fotos de seu prontuário médico privado, tiradas por seu médico em 2013, estavam listadas no conjunto de dados LAION-5B ao usar o site Have I Been Trained, que ajuda os usuários a encontrar seus trabalhos em conjuntos de dados de treinamento de IA.
Uma ação coletiva, Andersen et al. v. Stability AI LTD et al., apresentada em janeiro de 2023, incluiu a LAION nas alegações contra a Stability AI, Midjourney e DeviantArt. Os reclamantes afirmaram que a Stability AI baixou ilegalmente bilhões de imagens protegidas por direitos autorais, com a LAION supostamente fornecendo os dados coletados para a criação do Stable Diffusion.
A artista premiada Karla Ortiz, que trabalhou com empresas líderes como Industrial Light & Magic e Marvel Studios, falou em um painel da FTC em outubro sobre as preocupações relacionadas ao conjunto de dados LAION-5B. Ela observou: "A LAION-5B contém 5,8 bilhões de pares de texto e imagem que incluem meu trabalho e o de quase todos que conheço. Além da propriedade intelectual, também contém material profundamente preocupante, como prontuários médicos privados, pornografia não consensual e imagens de crianças."
Andrew Ng, uma figura proeminente em IA e ex-chefe do Google Brain, expressou preocupação com o impacto potencial de restringir o acesso a conjuntos de dados como a LAION. Em sua newsletter DeepLearning.ai, ele enfatizou que o sucesso dos recentes avanços em aprendizado de máquina depende do acesso a dados abundantes e disponíveis gratuitamente. Ng acredita que limitar o acesso a conjuntos de dados críticos dificultaria o progresso em várias áreas, como arte, educação e desenvolvimento de medicamentos, ao mesmo tempo em que apelou à comunidade de IA para melhorar a transparência na coleta e uso de dados.
A LAION, que significa Large-scale AI Open Network, foi cofundada por Christoph Schuhmann, que se inspirou ao interagir com entusiastas de IA no Discord. Seu objetivo era estabelecer um conjunto de dados de código aberto para treinar modelos de imagem para texto. Em poucas semanas, a LAION reuniu 3 milhões de pares de imagem-texto, expandindo eventualmente para mais de 5 bilhões.
A LAION também se envolveu em discussões sobre IA de código aberto, defendendo a aceleração da pesquisa e um cluster internacional colaborativo de computação para grandes modelos de IA. Notavelmente, a LAION obteve dados visuais de plataformas de compras online como Shopify, eBay e Amazon, que pesquisadores do Allen Institute for AI recentemente examinaram em um estudo do LAION-2B-en, um subconjunto do LAION-5B. Eles descobriram que aproximadamente 6% dos documentos do conjunto de dados tiveram origem no Shopify, destacando a necessidade de investigação adicional sobre as fontes de dados de imagem utilizadas no treinamento de modelos de IA.