スタンフォードインターネット観測所の最近の報告によると、LAION-5Bデータセットは、Stable Diffusion 1.5やGoogleのImagenなどの人気のテキストから画像生成AIモデルの訓練に使用される重要なオープンソース資源であり、少なくとも1,008件の児童性的虐待素材(CSAM)が含まれていることが明らかになりました。さらに、数千件が疑われています。この広範なデータセットは2022年3月に公開され、インターネットから集められた50億以上の画像とキャプションを含んでいます。この報告は、データセット内のCSAMがこのデータで訓練されたAIシステムによって新たでリアルに見える児童虐待の描写が生成される可能性があることに懸念を示しています。
LAIONは、”慎重を期すために”データセットを一時的に撤回することを404 Mediaに発表しました。再発表に向けて安全性を確保するためです。
LAIONのデータセットは過去にも注目を集めてきました。2021年10月には、認知科学者アベバ・ビルハネがLAION-400Mという以前のデータセットを分析した論文を発表し、レイプやポルノに関連する明示的な画像やテキストなど非常に問題のあるコンテンツを指摘しました。
2022年9月には、アーティストのラピーネが、2013年に医師に撮影された自身のプライベートな医療記録の写真がLAION-5Bデータセットにリストされているのを発見しました。これは、ユーザーが自分の作品をAI訓練データセット内で見つける手助けをする「Have I Been Trained」ウェブサイトを使用する際に起こりました。
2023年1月には、Andersen et al. v. Stability AI LTD et al.というクラスアクション訴訟が提起され、LAIONがStability AI、Midjourney、DeviantArtに対する告発に関与しました。原告たちは、Stability AIが数十億の著作権で保護された画像を不法にダウンロードし、LAIONがStable Diffusionの作成のためにデータを提供したと主張しました。
受賞歴のあるアーティスト、カール・オルティスは、10月のFTCパネルでLAION-5Bデータセットに関連する懸念について語りました。彼女は、「LAION-5Bには私の作品や知人の作品を含む58億のテキストと画像のペアが含まれています。知的財産権を超えて、プライベートな医療記録や非合意のポルノ、子どもの画像など、非常に懸念すべき素材も含まれています。」と述べました。
AIの著名な専門家であり元Google Brainの責任者アンドリュー・ングは、LAIONのようなデータセットへのアクセス制限が潜在的な影響を与える可能性について懸念を表明しました。彼のDeepLearning.aiニュースレターでは、最近の機械学習の進展は豊富なデータアクセスに依存していると強調しました。ングは、重要なデータセットへのアクセス制限が芸術、教育、医薬品開発などの進展を妨げると考え、AIコミュニティに対しデータ収集と使用の透明性を高めるよう促しました。
LAION(Large-scale AI Open Network)は、AI愛好者たちとの交流を通じてインスパイアされたクリストフ・シューマンによって共同設立されました。彼は、画像からテキストモデル用のオープンソースデータセットを設立することを目指しました。数週間以内に、LAIONは300万の画像とテキストのペアを集め、最終的には50億を超えました。
LAIONはまた、オープンソースAIに関する議論にも参加しており、大規模AIモデルのための研究の加速と国際的なコンピューティングクラスタの共同利用を提唱しています。特に、LAIONはShopify、eBay、Amazonなどのオンラインショッピングプラットフォームから視覚データを取得しており、最近アレンAI研究所の研究者がLAION-2B-enというLAION-5Bのサブセットを調査したところ、データセットの約6%がShopifyから発信されていることがわかりました。これは、AIモデルの訓練に使用される画像データのソースに関するさらなる調査の必要性を強調しています。