Масштабное расширение одной из крупнейших в мире баз данных для обучения ИИ обещает улучшение качества и объема данных.

Home Новости ИИ Масштабное расширение одной из крупнейших в мире баз данных для обучения ИИ обещает улучшение качества и объема данных.

Updated on январь 11 2024

Массивные наборы данных для обучения ИИ, часто называемые корпусами, считаются "опорой больших языковых моделей" (LLM). В 2023 году EleutherAI привлекло внимание благодаря созданию одного из крупнейших открытых текстовых корпусов в мире — Pile объемом 825 ГБ. Эта организация, основанная в 2020 году как некоммерческий коллектив в Discord для изучения GPT-3 от OpenAI, столкнулась с критикой на фоне растущих правовых и этических проблем, связанных с наборами данных, используемыми для обучения популярных LLM, таких как GPT-4 от OpenAI и Llama от Meta.

EleutherAI упоминалось в ряде судебных исков, касающихся генеративного ИИ. Примечательный иск, поданный в октябре бывшим губернатором Арканзаса Майком Хакаби и несколькими авторами, утверждал, что их книги были включены в Books3 — спорный набор данных, содержащий более 180,000 произведений, которые способствовали проекту Pile. Books3 был загружен в 2020 году Шоном Прессером и удален в августе 2023 года после правового уведомления от датской антипиратской группы.

Несмотря на эти трудности, EleutherAI разрабатывает обновленную версию набора данных Pile, сотрудничая с такими институтами, как Университет Торонто и Allen Institute for AI, а также с независимыми исследователями. Стелла Бидермэн, исполнительный директор EleutherAI, и Авия Сковрон, руководитель политики и этики, в совместном интервью заявили, что новый Pile будет завершен в ближайшие несколько месяцев.

Обновленный Pile будет значительно больше и "существенно лучше" своего предшественника, отметила Бидермэн. "Там будет много новых данных," - добавила она, подчеркивая включение ранее невидимой информации. Новый набор данных будет включать более актуальные данные по сравнению с оригиналом, который был выпущен в декабре 2020 года и использовался для обучения таких моделей, как Pythia и Stable LM от Stability AI. Получив опыт обучения почти десятка LLM, Бидермэн выделила улучшенные методы предварительной обработки данных: "Когда мы создавали Pile, мы никогда не обучали LLM. Теперь мы получили ценные идеи по улучшению данных для оптимального использования в LLM."

Обновленный набор данных также сделает акцент на лучшем качестве и разнообразии включаемых данных. "Мы планируем включить гораздо больше книг и широкий спектр научно-популярных произведений," - объяснила она.

Оригинальный Pile состоял из 22 поднаборов данных, включая Books3, PubMed Central, arXiv, Stack Exchange, Википедию, субтитры YouTube и даже электронные письма Enron. Бидермэн отметила, что Pile остается самым хорошо документированным набором данных для обучения LLM в мире. Инициатива направлена на создание обширного набора данных, состоящего из миллиардов текстовых фрагментов, сопоставимого с масштабами обучения OpenAI для GPT-3.

"Когда Pile был представлен в 2020 году, он сыграл ключевую роль, потому что был уникальным," - сказала Бидермэн. В то время существовал только один общедоступный крупный текстовый корпус — C4, который Google использовал для различных языковых моделей. "Но C4 меньше и менее разнообразен," - добавила она, описывая его как укороченную версию Common Crawl.

Подход EleutherAI к созданию Pile заключается в выборочной курации информации и тем, важных для обогащения знаний модели. "Более 75% Pile было отобрано из конкретных областей," - отметила она. "Наша цель заключалась в предоставлении значимых инсайтов о мире."

Сковрон объяснила позицию EleutherAI относительно обучения моделей и разумного использования, утверждая, что "современные LLM полагаются на охраняемые авторским правом данные." Одна из целей проекта Pile v2 состоит в решении проблем, связанных с авторским правом и лицензированием данных. Новый набор данных Pile будет включать произведения общественного достояния, тексты с лицензиями Creative Commons и государственные документы, обеспечивая соблюдение правовых норм. Кроме того, в нем будут представлены наборы данных, для которых были получены явные разрешения от правообладателей.

Критика наборов данных для обучения ИИ усилилась после выпуска ChatGPT в ноябре 2022 года, что вызвало опасения о нарушении авторских прав. Серия исков по вопросам генеративного ИИ, которые последовали, исходила от художников, писателей и издателей, что привело к серьезным правовым вызовам, включая иск от The New York Times против OpenAI и Microsoft.

Дебаты вокруг данных для обучения ИИ являются сложными. Бидермэн и Сковрон подчеркнули важность решения морально спорных случаев, таких как обнаружение изображений сексуального насилия над детьми в наборе данных LAION-5B, что недавно привело к его удалению. Бидермэн отметила, что методология, используемая для маркировки такого контента, может быть недоступна для организаций, таких как LAION.

Кроме того, они признали озабоченность творческих людей, чьи работы использовались для обучения ИИ моделей, подчеркивая, что многие из них сделали это под либеральными лицензиями, не предвидя эволюции ИИ. "Задним числом многие выбрали бы другие лицензионные условия," - размышляла Бидермэн.

Хотя наборы данных для обучения ИИ изначально были в первую очередь исследовательскими инструментами, они стали коммерческими продуктами. "Теперь основная цель заключается в создании," - сказала Бидермэн, подчеркивая растущее понимание коммерческих последствий для обучения моделей ИИ.

Интересно, что Бидермэн и Сковрон утверждали, что модели ИИ, обученные на открытых наборах данных, таких как Pile, более безопасны, так как повышенная прозрачность данных способствует этичному использованию в различных контекстах. "Для достижения многих политических целей необходимо обеспечить прозрачность, включая тщательную документацию по обучению," - подчеркнула Сковрон.

Поскольку EleutherAI продолжает улучшать Pile, Бидермэн выразила оптимизм относительно скорого выпуска новых моделей. "Мы работаем над этим уже около полутора лет, и я с нетерпением жду результатов. Ожидаю, что это приведет к небольшим, но значимым изменениям."

Microsoft и SAP запускают инновационные AI-решения для розничной торговли перед мероприятием NRF 2024.

1X: Стартап в области робототехники с поддержкой OpenAI привлек 100 миллионов долларов финансирования

Most people like

MyMap.AI

451.8K

Без труда преобразуйте свои текстовые идеи в увлекательные визуальные образы.

майндмэппинг AI Productivity Tools

Hirebase

29.3K

Представляем современный поисковый движок вакансий на базе ИИ, созданный для обеспечения индексирования работы в реальном времени для соискателей. Наша инновационная платформа упрощает процесс поиска работы, предоставляя мгновенный доступ к актуальным объявлениям о вакансиях, адаптированным под ваши конкретные навыки и предпочтения. Найдите свою мечту работу уже сегодня с помощью нашего ИИ!

поиск работы AI Recruiting

WOXO | Make videos & social content. Faster

309K

Легко создавайте и планируйте захватывающие видео на основе ИИ для ваших социальных сетей.

Генератор видео на основе ИИ AI Video Generator

BiGe AIPPT

65.1K

Устали тратить часы на создание презентаций в PowerPoint? Откройте для себя революционный инструмент для создания PPT на базе ИИ, который упрощает процесс подготовки ваших материалов. Эта инновационная технология использует искусственный интеллект, чтобы помочь вам быстро и без усилий создавать увлекательные слайды, позволяя сосредоточиться на передаче вашего сообщения. Повышайте качество ваших презентаций и экономьте драгоценное время с этим интуитивно понятным решением, созданным для всех профессионалов, стремящихся улучшить свои коммуникационные навыки.

На базе ИИ AI Presentation Generator

Find AI tools in YBX