Aujourd'hui, l'équipe Azure AI de Microsoft a lancé un nouveau modèle de fondation pour la vision nommé Florence-2 sur Hugging Face. Ce modèle, disponible sous une licence MIT permissive, excelle dans diverses tâches de vision et de vision-langage grâce à un cadre unifié basé sur des invites. Il propose deux tailles : 232M et 771M de paramètres, et démontre des capacités dans des tâches telles que la légende d'images, la détection d'objets, l'ancrage visuel et la segmentation, surpassant souvent d'autres grands modèles de vision.
Bien que les performances réelles de Florence-2 doivent encore être évaluées, son objectif est de fournir aux entreprises une stratégie cohérente pour de nombreuses applications visuelles. Cela réduira le besoin de modèles spécifiques à chaque tâche, qui limitent souvent leur fonctionnalité et nécessitent un réglage fin exhaustif.
Qu'est-ce qui distingue Florence-2 ?
Actuellement, les grands modèles de langage (LLMs) sont essentiels aux opérations des entreprises en offrant des services tels que la résumé, la création de contenu marketing et le support client. Leur capacité à s'adapter à différents domaines est remarquable, soulevant une question pour les chercheurs : les modèles de vision, traditionnellement conçus pour des tâches spécifiques, peuvent-ils atteindre une polyvalence similaire ?
Les tâches de vision sont intrinsèquement plus complexes que le traitement du langage naturel (NLP), car elles nécessitent des capacités perceptuelles sophistiquées. Un modèle universel doit comprendre les données spatiales à différentes échelles, allant des concepts larges comme les emplacements d'objets aux détails de pixels complexes et aux légendes de haut niveau.
Microsoft a identifié deux défis principaux dans la création d'un modèle de vision unifié : le manque de jeux de données visuels annotés de manière extensive et la nécessité d'un cadre de pré-formation unique capable d'intégrer hiérarchie spatiale et granularité sémantique.
Pour surmonter ces obstacles, Microsoft a développé un jeu de données visuel nommé FLD-5B, comprenant 5,4 milliards d'annotations pour 126 millions d'images, détaillant des descriptions générales jusqu'à des régions spécifiques d'objets. Ce jeu de données a permis de former Florence-2, qui utilise une architecture séquence-à-séquence combinant un encodeur d'images avec un encodeur-décodeur multi-modal. Ce design permet à Florence-2 de gérer diverses tâches visuelles sans avoir besoin de modifications architecturales spécifiques.
« Toutes les annotations du jeu de données FLD-5B sont standardisées en sorties textuelles, permettant une approche d'apprentissage multi-tâches unifiée avec une optimisation cohérente grâce à une fonction de perte uniforme », notent les chercheurs dans leur publication. « Le résultat est un modèle de fondation pour la vision polyvalent, capable de gérer plusieurs tâches dans un seul cadre, régi par un ensemble cohérent de paramètres. L’activation des tâches se fait par le biais d’invites textuelles, similaire aux grands modèles de langage. »
Des performances surpassant les modèles plus grands
Florence-2 exécute efficacement un éventail de tâches—telles que la détection d'objets, la légende d'images, l'ancrage visuel et le questionnement visuel—lorsqu’il reçoit des entrées d'image et de texte. Il obtient des résultats comparables ou meilleurs que de nombreux modèles plus grands.
Par exemple, lors des tests de légende zéro-shot sur le jeu de données COCO, les versions 232M et 771M de Florence-2 ont surpassé le modèle Flamingo de DeepMind avec 80B de paramètres, réalisant des scores de 133 et 135,6, respectivement. Ils ont également surpassé le modèle Kosmos-2 de Microsoft, spécialisé dans l'ancrage visuel.
Lorsqu'il est affiné avec des données annotées publiquement, Florence-2 se dispute étroitement avec de plus grands modèles spécialisés dans des tâches telles que le questionnement visuel. « Le backbone pré-entraîné de Florence-2 améliore les performances sur les tâches en aval, comme la détection d'objets COCO et la segmentation d’instance, ainsi que la segmentation sémantique ADE20K, surpassant des modèles supervisés et auto-supervisés », ont déclaré les chercheurs. « Comparé aux modèles pré-entraînés sur ImageNet, le nôtre améliore l'efficacité de l’entraînement de 4X et améliore significativement les performances de 6,9, 5,5 et 5,9 points sur les jeux de données COCO et ADE20K. »
Actuellement, les versions pré-entraînées et affinées de Florence-2 (232M et 771M) sont disponibles sur Hugging Face sous licence MIT, permettant une utilisation commerciale et privée sans restriction. Il sera fascinant de voir comment les développeurs tireront parti de Florence-2 pour éliminer la nécessité de modèles de vision distincts pour différentes tâches. Ces modèles compacts et agnostiques vis-à-vis des tâches peuvent rationaliser le développement et réduire considérablement les coûts informatiques.