Un rapport récent du Stanford Internet Observatory a révélé que le dataset LAION-5B, une ressource open-source significative utilisée pour former des générateurs d'images à partir de texte tels que Stable Diffusion 1.5 et Imagen de Google, contient au moins 1 008 instances de matériel de pédopornographie (CSAM), avec des milliers d'autres soupçonnées. Publié en mars 2022, ce vaste dataset comprend plus de 5 milliards d'images et de légendes associées, extraites d'internet. Le rapport soulève des inquiétudes quant à la possibilité que la présence de CSAM dans le dataset entraîne la génération par des systèmes d'IA d'images nouvelles et potentiellement réalistes d'abus sur des enfants.
En réponse, LAION a annoncé à 404 Media qu'il retirait temporairement ses datasets « par excès de précaution » pour garantir leur sécurité avant une nouvelle publication.
Les datasets de LAION ont déjà été critiqués. En octobre 2021, la scientifique cognitive Abeba Birhane a publié un article sur le LAION-400M, un dataset antérieur, mettant en évidence la présence de contenus très problématiques, incluant des images explicites et des textes liés au viol et à la pornographie.
En septembre 2022, l'artiste Lapine a découvert que ses photos de dossiers médicaux privés, prises par son médecin en 2013, étaient répertoriées dans le dataset LAION-5B lors de l'utilisation du site Have I Been Trained, qui aide les utilisateurs à retrouver leurs œuvres dans des datasets de formation d'IA.
Un recours collectif, Andersen et al. v. Stability AI LTD et al., déposé en janvier 2023, incluait LAION dans les allégations contre Stability AI, Midjourney et DeviantArt. Les plaignants affirmaient que Stability AI avait téléchargé illégalement des milliards d'images protégées par des droits d'auteur, LAION étant suspecté d'avoir fourni les données extraites pour la création de Stable Diffusion.
L'artiste primée Karla Ortiz, ayant collaboré avec des entreprises de premier plan telles qu'Industrial Light & Magic et Marvel Studios, s'est exprimée lors d'un panel de la FTC en octobre concernant les préoccupations liées au dataset LAION-5B. Elle a souligné : « LAION-5B contient 5,8 milliards de paires texte-image incluant mon travail ainsi que celui de presque toutes les personnes que je connais. Au-delà de la propriété intellectuelle, il contient également des matériaux profondément préoccupants comme des dossiers médicaux privés, de la pornographie non consensuelle et des images d'enfants. »
Andrew Ng, figure de proue de l'IA et ancien responsable de Google Brain, a exprimé son inquiétude concernant les répercussions potentielles de la restriction d'accès à des datasets comme LAION. Dans sa newsletter DeepLearning.ai, il a souligné que le succès des avancées récentes en apprentissage machine repose sur l'accès à des données abondantes et librement disponibles. Ng estime que limiter l'accès à ces datasets cruciaux freinerait les progrès dans divers domaines, tels que l'art, l'éducation et le développement de médicaments, tout en appelant la communauté de l'IA à renforcer la transparence dans la collecte et l'utilisation des données.
LAION, qui signifie Large-scale AI Open Network, a été cofondé par Christoph Schuhmann, qui a été inspiré en interagissant avec des passionnés d'IA sur Discord. Son objectif était d'établir un dataset open-source pour former des modèles d'image à texte. En quelques semaines, LAION a rassemblé 3 millions de paires image-texte, atteignant finalement plus de 5 milliards.
LAION a également participé à des discussions sur l'IA open-source, plaidant pour une accélération de la recherche et un cluster de calcul collaboratif international pour les modèles d'IA à grande échelle. Notamment, LAION a extrait des données visuelles de plateformes de commerce en ligne telles que Shopify, eBay et Amazon, que des chercheurs de l'Allen Institute for AI ont récemment examinées dans une étude sur LAION-2B-en, un sous-ensemble de LAION-5B. Ils ont découvert qu'environ 6 % des documents du dataset provenaient de Shopify, soulignant la nécessité de mener des investigations complémentaires sur les sources des données d'images utilisées pour former des modèles d'IA.