Новый метод кураторства данных, разработанный исследователями Meta и Google, может революционизировать технологии самообучения.

Home Новости ИИ Новый метод кураторства данных, разработанный исследователями Meta и Google, может революционизировать технологии самообучения.

В то время как исследователи в области ИИ и компании стремятся разработать более масштабные и эффективные модели машинного обучения, задача по созданию подходящих датасетов становится все более сложной.

Чтобы справиться с этой проблемой, ученые из Meta AI, Google, INRIA и Университета Париж-Сакле представили новый метод автоматической кураторства высококачественных датасетов, подходящих для самонаблюдаемого обучения (SSL).

Улучшение баланса датасетов в самонаблюдаемом обучении

Самонаблюдаемое обучение играет ключевую роль в современном ИИ, подпитывая системы от крупных языковых моделей до специализированных приложений, таких как медицинская визуализация. В отличие от обучений с учителем, которые основываются на размеченных данных, SSL использует неразмеченные данные, что позволяет моделям масштабироваться на основе сырых сведений.

Качество данных значительно влияет на производительность модели SSL. Датасеты, случайно собранные из интернета, часто страдают от несбалансированных распределений, где доминирующие концепции затмевают менее представленные, что приводит к предвзятости модели и снижению ее универсальности.

Исследователи подчеркивают: "Датасеты для самонаблюдаемого обучения должны быть большими, разнообразными и сбалансированными". Они акцентируют внимание на необходимости кураторства датасетов, обладающих этими качествами, предлагая формировать сбалансированные подмножества из обширных онлайн-хранилищ данных.

На данный момент значительное количество ручного труда тратится на создание сбалансированных датасетов для SSL. Хотя этот процесс менее времязатратен, чем аннотирование каждого примера, он все равно остается узким местом для обучения моделей в крупных масштабах.

Автоматизированный метод кураторства датасетов

Для оптимизации этого процесса исследователи предлагают автоматизированный метод кураторства, который создает сбалансированные обучающие датасеты из сырых данных. Их подход использует модели встраивания и алгоритмы кластеризации, чтобы выделить недостаточно представленные концепции в данных.

Процесс начинается с модели извлечения признаков, вычисляющей встраивания — числовые представления, отражающие семантические особенности различных типов данных, включая изображения, аудио и текст. Затем с помощью кластеризации k-средних исследователи группируют данные на основе сходства, итеративно обновляя центроиды групп для формирования кластеров связанных примеров.

Традиционная кластеризация k-средних часто приводит к избытку групп для сильно представленных концепций. Чтобы решить эту проблему, исследователи внедряют многоуровневый метод иерархической кластеризации k-средних, который строит кластеры снизу вверх. Этот инновационный подход одновременно применяет k-средние на предыдущих уровнях кластеров на каждом новом этапе кластеризации, обеспечивая сбалансированное представление на всех уровнях.

Этот иерархический подход позволяет создать комплексную кластеризацию, сохраняя менее представленные примеры по мере эволюции алгоритма к меньшему количеству более описательных верхних кластеров. Исследователи описывают эту технику как "универсальный алгоритм кураторства, не зависимый от конкретных задач", что позволяет извлекать значимые свойства данных из некурируемых источников, независимо от специфики приложения.

Оценка автоматически кураторных датасетов

Исследователи провели обширные эксперименты с использованием моделей компьютерного зрения, обученных на датасетах, кураторствованных с помощью иерархической кластеризации, используя изображения без ручной разметки. Их результаты показывают, что обучение на автоматически кураторных датасетах улучшает производительность на бенчмарках классификации изображений, особенно для примеров вне распределения, и значительно повышает эффективность извлечения. Модели, обученные на этих датасетах, показали сопоставимые результаты с моделями, обученными на вручную кураторных датасетах, требующих значительных человеческих ресурсов.

Этот алгоритм также успешно применялся к текстовым данным для обучения крупных языковых моделей и спутниковым изображениям для предсказания высоты кроны, демонстрируя впечатляющие улучшения по различным бенчмаркам.

Важно отметить, что их эксперименты показывают, что модели, обученные на хорошо сбалансированных датасетах, могут конкурировать с передовыми моделями, используя меньше примеров.

Внедрение этого автоматизированного метода кураторства датасетов имеет глубокие последствия для прикладного машинного обучения, особенно в отраслях, где кураторные данные дефицитны. Этот метод может существенно снизить затраты на аннотирование данных и кураторство для SSL, позволяя эффективно настраивать хорошо обученные модели на задачи с учителем с минимальными размеченными данными.

Кроме того, такие компании, как Meta и Google, обладающие огромными объемами необработанных данных, могут извлечь значительную выгоду из этого метода. Исследователи утверждают, что "автоматическое кураторство датасетов будет иметь все большее значение в будущих обучающих потоках".

ElevenLabs Расширяет Возможности ИИ: Представляем Инновационные Звуковые Эффекты, Генерируемые ИИ

Отчет о доходах Dell подчеркивает медленный рост внедрения ИИ в корпоративном секторе.

Most people like

Carter Chat

122.3K

Откройте для себя, взаимодействуйте и наслаждайтесь миром ИИ-персонажей. Развивайте свое творчество и соединяйтесь с инновационными виртуальными личностями для увлекательного опыта!

чат Картер AI Character

AI Hug

38.6K

Преобразуйте текст и изображения в потрясающие профессиональные видео с помощью нашего AI-инструмента без лишних усилий. Поднимите уровень своего контента с помощью передовых технологий, упрощающих процесс создания видео и делающих его доступным для всех. Независимо от того, являетесь ли вы маркетологом, преподавателем или создателем контента, этот инновационный AI-инструмент создан для того, чтобы легко и точно оживлять ваши идеи. Откройте для себя будущее видеопроизводства уже сегодня!

Создание видео с помощью ИИ Other

AISEO

451K

Улучшите контент, созданный ИИ, добавив ему человеческий подход, что обеспечит повышенное качество и искреннее взаимодействие.

Гуманизатор текста на основе ИИ AI Rewriter

Cognito

1.4M

Откройте для себя нашу инновационную интеллектуальную платформу для обучения, созданную специально для GCSE по науке и математике. Углубите свои знания и навыки с помощью адаптивных ресурсов, которые подстраиваются под ваш стиль обучения, гарантируя успех в учебе.

Платформа Cognito AI Course

Find AI tools in YBX