Un informe reciente del Stanford Internet Observatory ha revelado que el conjunto de datos LAION-5B, un recurso de IA de código abierto utilizado para entrenar generadores de texto a imagen populares como Stable Diffusion 1.5 y Google’s Imagen, contiene al menos 1,008 instancias de material de abuso sexual infantil (CSAM), con miles más sospechosas. Lanzado en marzo de 2022, este extenso conjunto de datos comprende más de 5 mil millones de imágenes y sus descripciones obtenidas de internet. El informe genera preocupación, ya que la presencia de CSAM en el conjunto de datos podría llevar a que los sistemas de IA entrenados con esta información generen nuevas y potencialmente realistas representaciones de abuso infantil.
En respuesta, LAION anunció a 404 Media que está retirando temporalmente sus conjuntos de datos "por un exceso de precaución" para garantizar su seguridad antes de volver a publicarlos.
Los conjuntos de datos de LAION ya habían sido objeto de escrutinio anteriormente. En octubre de 2021, la científica cognitiva Abeba Birhane publicó un artículo que analizaba LAION-400M, un conjunto de datos anterior. Sus hallazgos destacaron la presencia de contenido altamente problemático, incluyendo imágenes y textos explícitos relacionados con la violación y la pornografía.
En septiembre de 2022, la artista Lapine descubrió que fotos de sus registros médicos privados, tomadas por su doctor en 2013, aparecían en el conjunto de datos LAION-5B mientras usaba el sitio web Have I Been Trained, que ayuda a los usuarios a encontrar su trabajo en conjuntos de datos de entrenamiento de IA.
Una demanda colectiva, Andersen et al. v. Stability AI LTD et al., presentada en enero de 2023, incluyó a LAION en las acusaciones contra Stability AI, Midjourney y DeviantArt. Los demandantes afirmaron que Stability AI descargó ilegalmente miles de millones de imágenes protegidas por derechos de autor, con LAION supuestamente proporcionando los datos recopilados para la creación de Stable Diffusion.
La artista galardonada Karla Ortiz, quien ha trabajado con empresas líderes como Industrial Light & Magic y Marvel Studios, habló en un panel de la FTC en octubre sobre preocupaciones relacionadas con el conjunto de datos LAION-5B. Ella destacó: "LAION-5B contiene 5.8 mil millones de pares de texto e imagen que incluyen mi trabajo y el de casi todos los que conozco. Más allá de la propiedad intelectual, también contiene material profundamente preocupante como registros médicos privados, pornografía no consensuada e imágenes de niños."
Andrew Ng, una figura prominente en la IA y exjefe de Google Brain, ha expresado su preocupación sobre el impacto potencial de restringir el acceso a conjuntos de datos como LAION. En su boletín de DeepLearning.ai, enfatizó que el éxito de los recientes avances en aprendizaje automático ha dependido del acceso a datos abundantes y de libre disponibilidad. Ng cree que limitar el acceso a conjuntos de datos críticos obstaculizaría el progreso en varios campos, como el arte, la educación y el desarrollo de medicamentos, al tiempo que instó a la comunidad de IA a mejorar la transparencia en la recolección y uso de datos.
LAION, que significa Large-scale AI Open Network, fue cofundada por Christoph Schuhmann, quien se inspiró al interactuar con entusiastas de la IA en Discord. Su objetivo era establecer un conjunto de datos de código abierto para entrenar modelos de imagen a texto. En pocas semanas, LAION reunió 3 millones de pares de imagen-texto, ampliándose eventualmente a más de 5 mil millones.
LAION también ha participado en discusiones sobre IA de código abierto, abogando por una aceleración de la investigación y un clúster internacional colaborativo de computación para modelos de IA a gran escala. Notablemente, LAION obtuvo datos visuales de plataformas de comercio en línea como Shopify, eBay y Amazon, que investigadores del Allen Institute for AI examinaron recientemente en un estudio de LAION-2B-en, un subconjunto de LAION-5B. Descubrieron que aproximadamente el 6% de los documentos del conjunto de datos provenían de Shopify, lo que resalta la necesidad de investigar más sobre las fuentes de datos de imagen utilizadas en el entrenamiento de modelos de IA.