Недавний отчет Стэнфордской интернет-обсерватории выявил, что набор данных LAION-5B, значимый источник открытых данных для искусственного интеллекта, используемый для обучения популярных генераторов изображений, таких как Stable Diffusion 1.5 и Imagen от Google, содержит как минимум 1,008 случаев материалов сексуального насилия над детьми (CSAM), при этом подозревается множество других. Выпущенный в марте 2022 года, этот обширный набор данных включает более 5 миллиардов изображений и сопутствующих подписей, собранных из интернета. Отчет вызывает опасения о том, что присутствие CSAM в наборе данных может привести к созданию новыми AI-системами реалистичных изображений насилия над детьми.
В ответ на это LAION объявила 404 Media, что временно удаляет свои наборы данных «из-за чрезмерной осторожности», чтобы обеспечить безопасность материалов перед их повторной публикацией.
Наборы данных LAION уже подвергались критике. В октябре 2021 года когнитивный ученый Абеба Бирхане опубликовала статью, в которой проанализировала LAION-400M, более ранний набор данных. Ее результаты подчеркивают наличие проблемного контента, включая откровенные изображения и тексты, связанные с изнасилованием и порно.
В сентябре 2022 года художница Лапин обнаружила свои частные медицинские фотографии, сделанные ее врачом в 2013 году, в наборе данных LAION-5B, используя сайт Have I Been Trained, который помогает пользователям находить свои работы в наборах данных для обучения AI.
Групповой иск Andersen et al. против Stability AI LTD и других, поданный в январе 2023 года, включал LAION в список обвинений против Stability AI, Midjourney и DeviantArt. Истцы утверждали, что Stability AI незаконно скачала миллиарды защищенных авторским правом изображений, при этом LAION якобы предоставила собранные данные для создания Stable Diffusion.
Победительница наград, художница Карла Ортис, работавшая с ведущими компаниями, такими как Industrial Light & Magic и Marvel Studios, выступила на панели FTC в октябре с озабоченностью относительно набора данных LAION-5B. Она отметила: «LAION-5B содержит 5,8 миллиарда пар текста и изображений, которые включают мои работы и работы почти всех, кого я знаю. Кроме интеллектуальной собственности, это также содержит глубоко проблематичные материалы, такие как частные медицинские записи, несанкционированная порнография и изображения детей».
Эндрю Нг, видная фигура в области ИИ и former руководитель Google Brain, выразил обеспокоенность по поводу потенциальных последствий ограничения доступа к таким наборам данных, как LAION. В своем информационном бюллетене DeepLearning.ai он подчеркнул, что успех недавних достижений в области машинного обучения зависел от доступа к обширным, свободно доступным данным. Нг считает, что ограничение доступа к критически важным наборам данных сможет затормозить прогресс в таких сферах, как искусство, образование и разработка лекарств, призывая сообщество ИИ повысить прозрачность в сборе и использовании данных.
LAION, что расшифровывается как Large-scale AI Open Network, был соучреждён Кристофом Шумманом, который был вдохновлен общением с энтузиастами ИИ в Discord. Он стремился создать открытый набор данных для обучения моделей «изображение-текст». За несколько недель LAION собрал 3 миллиона пар изображений и текстов, в конечном итоге увеличив объем до более чем 5 миллиардов.
LAION также участвует в обсуждениях об открытом ИИ, выступая за ускорение исследований и создание совместного международного вычислительного кластера для крупных моделей ИИ. Примечательно, что LAION собирал визуальные данные с онлайн-платформ для покупок, таких как Shopify, eBay и Amazon, которые исследователи Института ИИ Оллена недавно изучили в исследовании LAION-2B-en, подмножества LAION-5B. Они обнаружили, что примерно 6% документов из набора данных происходят из Shopify, что подчеркивает необходимость дальнейшего расследования источников изображений, используемых для обучения моделей ИИ.