Массивные наборы данных для обучения ИИ, часто называемые корпусами, считаются "опорой больших языковых моделей" (LLM). В 2023 году EleutherAI привлекло внимание благодаря созданию одного из крупнейших открытых текстовых корпусов в мире — Pile объемом 825 ГБ. Эта организация, основанная в 2020 году как некоммерческий коллектив в Discord для изучения GPT-3 от OpenAI, столкнулась с критикой на фоне растущих правовых и этических проблем, связанных с наборами данных, используемыми для обучения популярных LLM, таких как GPT-4 от OpenAI и Llama от Meta.
EleutherAI упоминалось в ряде судебных исков, касающихся генеративного ИИ. Примечательный иск, поданный в октябре бывшим губернатором Арканзаса Майком Хакаби и несколькими авторами, утверждал, что их книги были включены в Books3 — спорный набор данных, содержащий более 180,000 произведений, которые способствовали проекту Pile. Books3 был загружен в 2020 году Шоном Прессером и удален в августе 2023 года после правового уведомления от датской антипиратской группы.
Несмотря на эти трудности, EleutherAI разрабатывает обновленную версию набора данных Pile, сотрудничая с такими институтами, как Университет Торонто и Allen Institute for AI, а также с независимыми исследователями. Стелла Бидермэн, исполнительный директор EleutherAI, и Авия Сковрон, руководитель политики и этики, в совместном интервью заявили, что новый Pile будет завершен в ближайшие несколько месяцев.
Обновленный Pile будет значительно больше и "существенно лучше" своего предшественника, отметила Бидермэн. "Там будет много новых данных," - добавила она, подчеркивая включение ранее невидимой информации. Новый набор данных будет включать более актуальные данные по сравнению с оригиналом, который был выпущен в декабре 2020 года и использовался для обучения таких моделей, как Pythia и Stable LM от Stability AI. Получив опыт обучения почти десятка LLM, Бидермэн выделила улучшенные методы предварительной обработки данных: "Когда мы создавали Pile, мы никогда не обучали LLM. Теперь мы получили ценные идеи по улучшению данных для оптимального использования в LLM."
Обновленный набор данных также сделает акцент на лучшем качестве и разнообразии включаемых данных. "Мы планируем включить гораздо больше книг и широкий спектр научно-популярных произведений," - объяснила она.
Оригинальный Pile состоял из 22 поднаборов данных, включая Books3, PubMed Central, arXiv, Stack Exchange, Википедию, субтитры YouTube и даже электронные письма Enron. Бидермэн отметила, что Pile остается самым хорошо документированным набором данных для обучения LLM в мире. Инициатива направлена на создание обширного набора данных, состоящего из миллиардов текстовых фрагментов, сопоставимого с масштабами обучения OpenAI для GPT-3.
"Когда Pile был представлен в 2020 году, он сыграл ключевую роль, потому что был уникальным," - сказала Бидермэн. В то время существовал только один общедоступный крупный текстовый корпус — C4, который Google использовал для различных языковых моделей. "Но C4 меньше и менее разнообразен," - добавила она, описывая его как укороченную версию Common Crawl.
Подход EleutherAI к созданию Pile заключается в выборочной курации информации и тем, важных для обогащения знаний модели. "Более 75% Pile было отобрано из конкретных областей," - отметила она. "Наша цель заключалась в предоставлении значимых инсайтов о мире."
Сковрон объяснила позицию EleutherAI относительно обучения моделей и разумного использования, утверждая, что "современные LLM полагаются на охраняемые авторским правом данные." Одна из целей проекта Pile v2 состоит в решении проблем, связанных с авторским правом и лицензированием данных. Новый набор данных Pile будет включать произведения общественного достояния, тексты с лицензиями Creative Commons и государственные документы, обеспечивая соблюдение правовых норм. Кроме того, в нем будут представлены наборы данных, для которых были получены явные разрешения от правообладателей.
Критика наборов данных для обучения ИИ усилилась после выпуска ChatGPT в ноябре 2022 года, что вызвало опасения о нарушении авторских прав. Серия исков по вопросам генеративного ИИ, которые последовали, исходила от художников, писателей и издателей, что привело к серьезным правовым вызовам, включая иск от The New York Times против OpenAI и Microsoft.
Дебаты вокруг данных для обучения ИИ являются сложными. Бидермэн и Сковрон подчеркнули важность решения морально спорных случаев, таких как обнаружение изображений сексуального насилия над детьми в наборе данных LAION-5B, что недавно привело к его удалению. Бидермэн отметила, что методология, используемая для маркировки такого контента, может быть недоступна для организаций, таких как LAION.
Кроме того, они признали озабоченность творческих людей, чьи работы использовались для обучения ИИ моделей, подчеркивая, что многие из них сделали это под либеральными лицензиями, не предвидя эволюции ИИ. "Задним числом многие выбрали бы другие лицензионные условия," - размышляла Бидермэн.
Хотя наборы данных для обучения ИИ изначально были в первую очередь исследовательскими инструментами, они стали коммерческими продуктами. "Теперь основная цель заключается в создании," - сказала Бидермэн, подчеркивая растущее понимание коммерческих последствий для обучения моделей ИИ.
Интересно, что Бидермэн и Сковрон утверждали, что модели ИИ, обученные на открытых наборах данных, таких как Pile, более безопасны, так как повышенная прозрачность данных способствует этичному использованию в различных контекстах. "Для достижения многих политических целей необходимо обеспечить прозрачность, включая тщательную документацию по обучению," - подчеркнула Сковрон.
Поскольку EleutherAI продолжает улучшать Pile, Бидермэн выразила оптимизм относительно скорого выпуска новых моделей. "Мы работаем над этим уже около полутора лет, и я с нетерпением жду результатов. Ожидаю, что это приведет к небольшим, но значимым изменениям."