كشف تقرير حديث من مرصد الإنترنت بجامعة ستانفورد أن مجموعة بيانات LAION-5B، وهي مورد ضخم مفتوح المصدر يُستخدم في تدريب مولدات النص إلى صورة الشهيرة مثل Stable Diffusion 1.5 و Google’s Imagen، تحتوي على ما لا يقل عن 1008 حالات تتعلق بالمواد الإباحية للأطفال (CSAM)، مع وجود آلاف أخرى يُشتبه بها. أُصدر هذا المجموع الواسع من البيانات في مارس 2022 ويحتوي على أكثر من 5 مليارات صورة وتعليقات مرتبطة بها مأخوذة من الإنترنت. يثير التقرير القلق من أن وجود CSAM في مجموعة البيانات قد يؤدي إلى توليد أنظمة الذكاء الصناعي المدربة على هذه البيانات لتصورات جديدة قد تكون واقعية عن إساءة معاملة الأطفال.
استجابة لذلك، أعلنت LAION لـ 404 Media أنها تقوم بإزالة مجموعاتها مؤقتًا "بدافع من الحذر الشديد" لضمان سلامتها قبل إعادة نشرها.
لقد واجهت مجموعات بيانات LAION تدقيقًا في السابق. في أكتوبر 2021، نشرت عالمة الإدراك Abeba Birhane ورقة بحثية تحليلية عن LAION-400M، وهي مجموعة بيانات سابقة. وأبرزت نتائجها وجود محتوى مثير للقلق، بما في ذلك صور ونصوص تتعلق بالاغتصاب والإباحية.
في سبتمبر 2022، اكتشفت الفنانة Lapine صور سجلاتها الطبية الخاصة، التي أخذها طبيبها في 2013، مدرجة في مجموعة بيانات LAION-5B أثناء استخدام موقع Have I Been Trained، الذي يساعد المستخدمين في العثور على أعمالهم في مجموعات بيانات تدريب الذكاء الصناعي.
تم تقديم دعوى جماعية، Anderson et al. v. Stability AI LTD et al.، في يناير 2023، تضمنت LAION في المزاعم الموجهة ضد Stability AI وMidjourney وDeviantArt. وزعم المدّعون أن Stability AI قامت بتحميل مليارات الصور المحمية بحقوق الطبع والنشر بشكل غير قانوني، مع ادعاء LAION بتوفير البيانات المسروقة لإنشاء Stable Diffusion.
تحدثت الفنانة الحائزة على جوائز Karla Ortiz، التي عملت مع شركات رائدة مثل Industrial Light & Magic وMarvel Studios، في لجنة FTC في أكتوبر عن المخاوف المرتبطة بمجموعة بيانات LAION-5B. وأشارت إلى أن "LAION-5B تحتوي على 5.8 مليار زوج من النصوص والصور التي تشمل عملي وعمل معظم الأشخاص الذين أعرفهم. وما وراء الملكية الفكرية، تحتوي أيضًا على مواد مقلقة مثل السجلات الطبية الخاصة، والإباحية غير المتوافقة، وصور الأطفال."
عبّر Andrew Ng، شخصية بارزة في الذكاء الصناعي ورئيس سابق لفريق Google Brain، عن قلقه بشأن التأثير المحتمل على حصر الوصول إلى مجموعات بيانات مثل LAION. في نشرته الإخبارية DeepLearning.ai، أكد أن نجاح التقدم في التعلم الآلي يعتمد على الوصول إلى بيانات وفيرة ومجانية. ويعتقد Ng أن تقييد الوصول إلى مجموعات البيانات الحيوية سيعيق التقدم في مجالات متنوعة، مثل الفن والتعليم وتطوير الأدوية، مشددًا على ضرورة تعزيز الشفافية في جمع البيانات واستخدامها في مجتمع الذكاء الصناعي.
تأسست LAION، التي تعني الشبكة المفتوحة للذكاء الاصطناعي على نطاق واسع، بمشاركة Christoph Schuhmann، الذي استلهم فكرته أثناء تفاعله مع عشاق الذكاء الصناعي على Discord. هدفه كان إنشاء مجموعة بيانات مفتوحة المصدر لتدريب نماذج الصور إلى نص. في غضون أسابيع، جمعت LAION 3 ملايين زوج من الصورة والنص، وتوسعت في النهاية إلى أكثر من 5 مليارات.
كما شاركت LAION في مناقشات حول الذكاء الاصطناعي مفتوح المصدر، داعية إلى تسريع البحوث وإنشاء مجموعة حاسوبية دولية تعاونية لنماذج الذكاء الاصطناعي على نطاق واسع. ومن الجدير بالذكر أن LAION حصلت على بيانات بصرية من منصات التسوق الإلكترونية مثل Shopify وeBay وAmazon، والتي فحصها مؤخرًا الباحثون من معهد ألين للذكاء الاصطناعي في دراسة لـ LAION-2B-en، وهي مجموعة فرعية من LAION-5B. واكتشفوا أن حوالي 6% من مستندات مجموعة البيانات نشأت من Shopify، مما يبرز الحاجة إلى مزيد من التحقيق في مصادر بيانات الصور المستخدمة في تدريب نماذج الذكاء الاصطناعي.