Скандал вокруг бесплатного набора изображений ИИ после удаления материалов с детской сексуальной эксплуатацией

Недавний отчет Стэнфордской интернет-обсерватории выявил, что набор данных LAION-5B, значимый источник открытых данных для искусственного интеллекта, используемый для обучения популярных генераторов изображений, таких как Stable Diffusion 1.5 и Imagen от Google, содержит как минимум 1,008 случаев материалов сексуального насилия над детьми (CSAM), при этом подозревается множество других. Выпущенный в марте 2022 года, этот обширный набор данных включает более 5 миллиардов изображений и сопутствующих подписей, собранных из интернета. Отчет вызывает опасения о том, что присутствие CSAM в наборе данных может привести к созданию новыми AI-системами реалистичных изображений насилия над детьми.

В ответ на это LAION объявила 404 Media, что временно удаляет свои наборы данных «из-за чрезмерной осторожности», чтобы обеспечить безопасность материалов перед их повторной публикацией.

Наборы данных LAION уже подвергались критике. В октябре 2021 года когнитивный ученый Абеба Бирхане опубликовала статью, в которой проанализировала LAION-400M, более ранний набор данных. Ее результаты подчеркивают наличие проблемного контента, включая откровенные изображения и тексты, связанные с изнасилованием и порно.

В сентябре 2022 года художница Лапин обнаружила свои частные медицинские фотографии, сделанные ее врачом в 2013 году, в наборе данных LAION-5B, используя сайт Have I Been Trained, который помогает пользователям находить свои работы в наборах данных для обучения AI.

Групповой иск Andersen et al. против Stability AI LTD и других, поданный в январе 2023 года, включал LAION в список обвинений против Stability AI, Midjourney и DeviantArt. Истцы утверждали, что Stability AI незаконно скачала миллиарды защищенных авторским правом изображений, при этом LAION якобы предоставила собранные данные для создания Stable Diffusion.

Победительница наград, художница Карла Ортис, работавшая с ведущими компаниями, такими как Industrial Light & Magic и Marvel Studios, выступила на панели FTC в октябре с озабоченностью относительно набора данных LAION-5B. Она отметила: «LAION-5B содержит 5,8 миллиарда пар текста и изображений, которые включают мои работы и работы почти всех, кого я знаю. Кроме интеллектуальной собственности, это также содержит глубоко проблематичные материалы, такие как частные медицинские записи, несанкционированная порнография и изображения детей».

Эндрю Нг, видная фигура в области ИИ и former руководитель Google Brain, выразил обеспокоенность по поводу потенциальных последствий ограничения доступа к таким наборам данных, как LAION. В своем информационном бюллетене DeepLearning.ai он подчеркнул, что успех недавних достижений в области машинного обучения зависел от доступа к обширным, свободно доступным данным. Нг считает, что ограничение доступа к критически важным наборам данных сможет затормозить прогресс в таких сферах, как искусство, образование и разработка лекарств, призывая сообщество ИИ повысить прозрачность в сборе и использовании данных.

LAION, что расшифровывается как Large-scale AI Open Network, был соучреждён Кристофом Шумманом, который был вдохновлен общением с энтузиастами ИИ в Discord. Он стремился создать открытый набор данных для обучения моделей «изображение-текст». За несколько недель LAION собрал 3 миллиона пар изображений и текстов, в конечном итоге увеличив объем до более чем 5 миллиардов.

LAION также участвует в обсуждениях об открытом ИИ, выступая за ускорение исследований и создание совместного международного вычислительного кластера для крупных моделей ИИ. Примечательно, что LAION собирал визуальные данные с онлайн-платформ для покупок, таких как Shopify, eBay и Amazon, которые исследователи Института ИИ Оллена недавно изучили в исследовании LAION-2B-en, подмножества LAION-5B. Они обнаружили, что примерно 6% документов из набора данных происходят из Shopify, что подчеркивает необходимость дальнейшего расследования источников изображений, используемых для обучения моделей ИИ.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles