Исследователи из MIT, Cohere for AI и 11 других учреждений представили Платформу происхождения данных, чтобы решить актуальную проблему прозрачности данных в ИИ. В рамках этой инициативы они проанализировали и проследили происхождение почти 2,000 самых популярных наборов данных для дообучения, которые были скачаны десятки миллионов раз и служат основой для значительных достижений в области обработки естественного языка (NLP). По словам кандидата наук в MIT Media Lab Шейна Лонгпри и главы Cohere for AI Сары Хукер, "результатом этой многопрофильной работы является крупнейший аудит наборов данных ИИ на сегодняшний день." Впервые эти наборы данных содержат теги, которые указывают на оригинальные источники данных, многократные переоформления лицензий, создателей и другие важные свойства.
Для повышения удобства использования, Проводник происхождения данных — интерактивная платформа — позволяет разработчикам отслеживать и фильтровать тысячи наборов данных на основе юридических и этических критериев. Этот ресурс также предоставляет возможность исследователям и журналистам анализировать состав и происхождение популярных наборов данных ИИ.
Сборники наборов данных игнорируют происхождение
Инициатива culminировалась статьей под названием "Инициатива происхождения данных: массовый аудит лицензирования и атрибуции наборов данных в ИИ", в которой выделяется важная проблема: "Широко используемые сборники наборов данных часто воспринимаются как монолитные, не признавая их разнообразного происхождения. Эти наборы данных часто собираются, генерируются, кураторятся и аннотируются через множество циклов переработки и лицензирования различными практикующими."
Недостаток мотивации признавать это происхождение объясняется огромным масштабом сбора данных, что усложняет процесс атрибуции, а также усилившимся вниманием к авторскому праву. В результате снизилось использование Datasheets и уменьшилась прозрачность источников обучения, что привело к недостаточному пониманию обучающих данных. Этот пробел в знаниях может вызвать утечку данных между обучающими и тестовыми наборами, раскрытие личной информации (PII), непреднамеренные предвзятости или поведения, а также в конечном итоге более низкое качество моделей, чем ожидалось. Более того, эти пробелы представляют значительные этические и юридические риски, такие как конфликты между выпуском моделей и условиями использования данных. Поскольку обучение на данных дорогостоящее и во многом необратимое, эти проблемы сложно решить.
Увеличение внимания к обучающим наборам данных в 2023 году
В течение 2023 года медиапокрытие поднимало вопросы о происхождении данных и прозрачности обучающих наборов данных. Например, в марте генеральный директор Lightning AI Уильям Фалькон раскритиковал статью OpenAI о GPT-4 за "маскировку под исследование", отметив отсутствие важных деталей. В разделе "Объем и ограничения" отчета специально указывалось на исключение информации о архитектуре, структуре данных и методах обучения из-за конкурентных и безопасных соображений, связанных с крупномасштабными моделями, такими как GPT-4.
В сентябре была опубликована подробная аналитика, касающаяся проблем авторского права, связанных с данными для обучения генеративного ИИ. Доктор Алекс Ханна, директор по исследованиям в Институте распределенных исследований ИИ (DAIR), отметил неотложные вызовы, вызванные быстрое распространение генеративного ИИ, заявив, что это вызвало серьезные опасения по поводу использования авторских материалов, собранных без согласия.