Ein aktueller Bericht des Stanford Internet Observatory hat ergeben, dass der LAION-5B-Datensatz, eine bedeutende Open-Source-Ressource für KI, die unter anderem beim Training populärer Text-zu-Bild-Generatoren wie Stable Diffusion 1.5 und Googles Imagen verwendet wird, mindestens 1.008 Fälle von kindlicher sexualisierter Gewalt (CSAM) enthält, wobei Tausende weitere vermutet werden. Dieser umfangreiche Datensatz, der im März 2022 veröffentlicht wurde, umfasst über 5 Milliarden Bilder und zugehörige Beschreibungen, die aus dem Internet stammen. Der Bericht weckt Bedenken, dass die Präsenz von CSAM in diesem Datensatz dazu führen könnte, dass KI-Systeme, die auf diesen Daten trainiert wurden, neue und potenziell realistische Darstellungen von Kindesmissbrauch generieren.
Als Reaktion darauf gab LAION gegenüber 404 Media bekannt, dass es die Datensätze vorübergehend "aus Vorsicht" entfernt, um ihre Sicherheit vor einer erneuten Veröffentlichung zu gewährleisten.
LAIONs Datensätze standen bereits zuvor unter Beobachtung. Im Oktober 2021 veröffentlichte die Kognitionswissenschaftlerin Abeba Birhane eine Analyse des LAION-400M-Datensatzes, die problematische Inhalte wie explizite Bilder und Texte zu Vergewaltigung und Pornografie aufdeckte. Im September 2022 entdeckte die Künstlerin Lapine ihre privaten medizinischen Fotos, die 2013 von ihrem Arzt aufgenommen wurden, im LAION-5B-Datensatz, als sie die Website Have I Been Trained nutzte, die Nutzern hilft, ihre Arbeiten in AI-Trainingsdatensätzen zu finden.
Eine Sammelklage, Andersen et al. v. Stability AI LTD et al., die im Januar 2023 eingereicht wurde, bezog sich auch auf LAION in den Vorwürfen gegen Stability AI, Midjourney und DeviantArt. Die Kläger behaupteten, dass Stability AI illegal Milliarden urheberrechtlich geschützter Bilder heruntergeladen hat, wobei LAION angeblich die gesammelten Daten für die Erstellung von Stable Diffusion bereitstellte.
Die preisgekrönte Künstlerin Karla Ortiz, die mit renommierten Unternehmen wie Industrial Light & Magic und Marvel Studios zusammengearbeitet hat, äußerte im Oktober auf einem FTC-Panel Bedenken im Zusammenhang mit dem LAION-5B-Datensatz. Sie erklärte: "LAION-5B enthält 5,8 Milliarden Text-Bild-Paare, die meine Arbeit und die fast aller Menschen, die ich kenne, umfassen. Abgesehen von geistigem Eigentum enthält es auch äußerst bedenkliche Inhalte wie private medizinische Unterlagen, nicht einvernehmliche Pornografie und Bilder von Kindern."
Andrew Ng, eine prominente Persönlichkeit im Bereich KI und ehemaliger Leiter von Google Brain, äußerte Bedenken hinsichtlich der möglichen Auswirkungen einer Einschränkung des Zugangs zu Datensätzen wie LAION. In seinem DeepLearning.ai-Newsletter betonte er, dass der Erfolg aktueller maschineller Lernfortschritte auf dem Zugang zu umfangreichen, frei verfügbaren Daten beruht. Ng ist der Meinung, dass eine Einschränkung des Zugangs zu kritischen Datensätzen den Fortschritt in verschiedenen Bereichen wie Kunst, Bildung und Arzneimittelentwicklung behindern würde und fordert die KI-Community zur Verbesserung der Transparenz bei der Datensammlung und -nutzung auf.
LAION, was für Large-scale AI Open Network steht, wurde von Christoph Schuhmann mitbegründet, der während der Interaktion mit KI-Enthusiasten auf Discord inspiriert wurde. Sein Ziel war es, einen Open-Source-Datensatz für das Training von Bild-zu-Text-Modellen zu schaffen. Innerhalb weniger Wochen sammelte LAION 3 Millionen Bild-Text-Paare und erweiterte sich schließlich auf über 5 Milliarden.
LAION hat auch Diskussionen über Open-Source-KI geführt und sich für eine Beschleunigung der Forschung sowie für ein internationales Computercluster für großangelegte KI-Modelle eingesetzt. Besonders erwähnenswert ist, dass LAION visuelle Daten von Online-Shopping-Plattformen wie Shopify, eBay und Amazon bezogen hat. Forscher des Allen Institute for AI untersuchten kürzlich im Rahmen einer Studie zu LAION-2B-en, einem Subset von LAION-5B, und fanden heraus, dass etwa 6 % der Dokumente des Datensatzes von Shopify stammen, was den Bedarf an weiteren Untersuchungen zu den Quellen von Bilddaten, die für das Training von KI-Modellen verwendet werden, unterstreicht.