Microsoft запускает Florence-2: унифицированную модель для различных задач в области визуального восприятия.

Сегодня команда Azure AI от Microsoft представила новую модель основанную на видении под названием Florence-2 на платформе Hugging Face. Эта модель, доступная под лицензией MIT, демонстрирует превосходные результаты в различных задачах зрения и их взаимодействии с языком благодаря единой системе на основе подсказок. Она предлагается в двух версиях — с 232M и 771M параметрами — и показывает высокую эффективность в таких задачах, как генерация подписей, обнаружение объектов, визуальная привязка и сегментация, зачастую превосходя другие крупные модели.

Хотя реальная производительность Florence-2 еще предстоит оценить, она направлена на создание единой стратегии для предприятий в области разнообразных приложений восприятия. Это сократит необходимость в множестве специализированных моделей, которые часто ограничивают функциональность и требуют значительной настройки.

Что отличает Florence-2 от других моделей?

В настоящее время крупные языковые модели (LLMs) играют важную роль в бизнесе, предоставляя такие услуги, как создание резюме, маркетинговых текстов и поддержка клиентов. Их адаптивность к различным областям оказалась впечатляющей. Это ставит исследователей перед вопросом: могут ли модели зрения, которые обычно разрабатываются для конкретных задач, достичь подобной универсальности?

Задачи зрения по своей природе сложнее, чем обработка естественного языка (NLP), поскольку требуют сложных перцептивных способностей. Универсальная модель должна понимать пространственные данные на различных масштабах — от широких понятий, таких как местоположение объектов, до тонких деталей пикселей и высокоуровневых подписей.

Microsoft выявила две основные проблемы при создании единой модели зрения: недостаток обширно аннотированных визуальных наборов данных и необходимость в единой системе предобучения, способной интегрировать пространственную и семантическую иерархии.

Для преодоления этих трудностей Microsoft разработала визуальный набор данных FLD-5B, который включает 5,4 миллиарда аннотаций для 126 миллионов изображений, охватывающих от общих описаний до конкретных областей объектов. Этот набор данных использовался для обучения Florence-2, который применяет архитектуру последовательной связи, объединяющую кодировщик изображений с многомодальным кодировщиком-декодировщиком. Эта структура позволяет Florence-2 эффективно выполнять разные задачи зрения без необходимости в изменениях архитектуры для каждой задачи.

"Все аннотации в наборе данных FLD-5B стандартизированы в текстовые выходные данные, что позволяет реализовать единый подход к многозадачному обучению с постоянной оптимизацией через единую функцию потерь," отмечают исследователи в своей работе. "В результате получается многофункциональная модель основанная на vision, способная справляться с несколькими задачами в рамках единой системы и управляемая согласованным набором параметров. Активация задач осуществляется через текстовые подсказки, как и в крупных языковых моделях."

Производительность, превосходящая более крупные модели

Florence-2 эффективно выполняет ряд задач, таких как обнаружение объектов, генерация подписей, визуальная привязка и ответ на визуальные вопросы, при условии предоставления изображений и текстовых вводов. Примечательно, что результаты сопоставимы или даже лучше многих более крупных моделей.

Например, в тестах нулевой генерации подписей на наборе данных COCO обе версии Florence-2 — с 232M и 771M параметрами — превзошли модель Flamingo с 80B параметрами от DeepMind, получив 133 и 135,6 баллов соответственно. Они также обошли собственную модель Microsoft Kosmos-2, специализированную для визуальной привязки.

При дообучении на данных с общественной аннотацией Florence-2 показывает высокий уровень конкуренции с крупными специализированными моделями в задачах, таких как ответ на визуальные вопросы.

"Предобученная основа Florence-2 улучшает производительность в последующих задачах, таких как обнаружение объектов COCO и сегментация экземпляров, а также семантическая сегментация ADE20K, превосходя как модели с обучением под наблюдением, так и самообучающиеся модели," заявили исследователи. "По сравнению с предобученными моделями на ImageNet, наша модель повышает эффективность обучения в 4 раза и значительно улучшает производительность на 6.9, 5.5 и 5.9 пункта на наборах COCO и ADE20K."

В настоящее время как предобученные, так и дообученные версии Florence-2 (232M и 771M) доступны на Hugging Face под лицензией MIT, что позволяет их неограниченное коммерческое и частное использование.

Интересно будет наблюдать, как разработчики используют Florence-2 для устранения необходимости в отдельных моделях зрения для различных задач. Эти компактные, не специализированные модели могут упростить разработку и значительно снизить вычислительные затраты.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles