Новый метод кураторства данных, разработанный исследователями Meta и Google, может революционизировать технологии самообучения.

В то время как исследователи в области ИИ и компании стремятся разработать более масштабные и эффективные модели машинного обучения, задача по созданию подходящих датасетов становится все более сложной.

Чтобы справиться с этой проблемой, ученые из Meta AI, Google, INRIA и Университета Париж-Сакле представили новый метод автоматической кураторства высококачественных датасетов, подходящих для самонаблюдаемого обучения (SSL).

Улучшение баланса датасетов в самонаблюдаемом обучении

Самонаблюдаемое обучение играет ключевую роль в современном ИИ, подпитывая системы от крупных языковых моделей до специализированных приложений, таких как медицинская визуализация. В отличие от обучений с учителем, которые основываются на размеченных данных, SSL использует неразмеченные данные, что позволяет моделям масштабироваться на основе сырых сведений.

Качество данных значительно влияет на производительность модели SSL. Датасеты, случайно собранные из интернета, часто страдают от несбалансированных распределений, где доминирующие концепции затмевают менее представленные, что приводит к предвзятости модели и снижению ее универсальности.

Исследователи подчеркивают: "Датасеты для самонаблюдаемого обучения должны быть большими, разнообразными и сбалансированными". Они акцентируют внимание на необходимости кураторства датасетов, обладающих этими качествами, предлагая формировать сбалансированные подмножества из обширных онлайн-хранилищ данных.

На данный момент значительное количество ручного труда тратится на создание сбалансированных датасетов для SSL. Хотя этот процесс менее времязатратен, чем аннотирование каждого примера, он все равно остается узким местом для обучения моделей в крупных масштабах.

Автоматизированный метод кураторства датасетов

Для оптимизации этого процесса исследователи предлагают автоматизированный метод кураторства, который создает сбалансированные обучающие датасеты из сырых данных. Их подход использует модели встраивания и алгоритмы кластеризации, чтобы выделить недостаточно представленные концепции в данных.

Процесс начинается с модели извлечения признаков, вычисляющей встраивания — числовые представления, отражающие семантические особенности различных типов данных, включая изображения, аудио и текст. Затем с помощью кластеризации k-средних исследователи группируют данные на основе сходства, итеративно обновляя центроиды групп для формирования кластеров связанных примеров.

Традиционная кластеризация k-средних часто приводит к избытку групп для сильно представленных концепций. Чтобы решить эту проблему, исследователи внедряют многоуровневый метод иерархической кластеризации k-средних, который строит кластеры снизу вверх. Этот инновационный подход одновременно применяет k-средние на предыдущих уровнях кластеров на каждом новом этапе кластеризации, обеспечивая сбалансированное представление на всех уровнях.

Этот иерархический подход позволяет создать комплексную кластеризацию, сохраняя менее представленные примеры по мере эволюции алгоритма к меньшему количеству более описательных верхних кластеров. Исследователи описывают эту технику как "универсальный алгоритм кураторства, не зависимый от конкретных задач", что позволяет извлекать значимые свойства данных из некурируемых источников, независимо от специфики приложения.

Оценка автоматически кураторных датасетов

Исследователи провели обширные эксперименты с использованием моделей компьютерного зрения, обученных на датасетах, кураторствованных с помощью иерархической кластеризации, используя изображения без ручной разметки. Их результаты показывают, что обучение на автоматически кураторных датасетах улучшает производительность на бенчмарках классификации изображений, особенно для примеров вне распределения, и значительно повышает эффективность извлечения. Модели, обученные на этих датасетах, показали сопоставимые результаты с моделями, обученными на вручную кураторных датасетах, требующих значительных человеческих ресурсов.

Этот алгоритм также успешно применялся к текстовым данным для обучения крупных языковых моделей и спутниковым изображениям для предсказания высоты кроны, демонстрируя впечатляющие улучшения по различным бенчмаркам.

Важно отметить, что их эксперименты показывают, что модели, обученные на хорошо сбалансированных датасетах, могут конкурировать с передовыми моделями, используя меньше примеров.

Внедрение этого автоматизированного метода кураторства датасетов имеет глубокие последствия для прикладного машинного обучения, особенно в отраслях, где кураторные данные дефицитны. Этот метод может существенно снизить затраты на аннотирование данных и кураторство для SSL, позволяя эффективно настраивать хорошо обученные модели на задачи с учителем с минимальными размеченными данными.

Кроме того, такие компании, как Meta и Google, обладающие огромными объемами необработанных данных, могут извлечь значительную выгоду из этого метода. Исследователи утверждают, что "автоматическое кураторство датасетов будет иметь все большее значение в будущих обучающих потоках".

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles