Microsoft lance Florence-2 : un modèle unifié conçu pour des tâches de vision variées.

Home Actualités IA Microsoft lance Florence-2 : un modèle unifié conçu pour des tâches de vision variées.

Aujourd'hui, l'équipe Azure AI de Microsoft a lancé un nouveau modèle de fondation pour la vision nommé Florence-2 sur Hugging Face. Ce modèle, disponible sous une licence MIT permissive, excelle dans diverses tâches de vision et de vision-langage grâce à un cadre unifié basé sur des invites. Il propose deux tailles : 232M et 771M de paramètres, et démontre des capacités dans des tâches telles que la légende d'images, la détection d'objets, l'ancrage visuel et la segmentation, surpassant souvent d'autres grands modèles de vision.

Bien que les performances réelles de Florence-2 doivent encore être évaluées, son objectif est de fournir aux entreprises une stratégie cohérente pour de nombreuses applications visuelles. Cela réduira le besoin de modèles spécifiques à chaque tâche, qui limitent souvent leur fonctionnalité et nécessitent un réglage fin exhaustif.

Qu'est-ce qui distingue Florence-2 ?

Actuellement, les grands modèles de langage (LLMs) sont essentiels aux opérations des entreprises en offrant des services tels que la résumé, la création de contenu marketing et le support client. Leur capacité à s'adapter à différents domaines est remarquable, soulevant une question pour les chercheurs : les modèles de vision, traditionnellement conçus pour des tâches spécifiques, peuvent-ils atteindre une polyvalence similaire ?

Les tâches de vision sont intrinsèquement plus complexes que le traitement du langage naturel (NLP), car elles nécessitent des capacités perceptuelles sophistiquées. Un modèle universel doit comprendre les données spatiales à différentes échelles, allant des concepts larges comme les emplacements d'objets aux détails de pixels complexes et aux légendes de haut niveau.

Microsoft a identifié deux défis principaux dans la création d'un modèle de vision unifié : le manque de jeux de données visuels annotés de manière extensive et la nécessité d'un cadre de pré-formation unique capable d'intégrer hiérarchie spatiale et granularité sémantique.

Pour surmonter ces obstacles, Microsoft a développé un jeu de données visuel nommé FLD-5B, comprenant 5,4 milliards d'annotations pour 126 millions d'images, détaillant des descriptions générales jusqu'à des régions spécifiques d'objets. Ce jeu de données a permis de former Florence-2, qui utilise une architecture séquence-à-séquence combinant un encodeur d'images avec un encodeur-décodeur multi-modal. Ce design permet à Florence-2 de gérer diverses tâches visuelles sans avoir besoin de modifications architecturales spécifiques.

« Toutes les annotations du jeu de données FLD-5B sont standardisées en sorties textuelles, permettant une approche d'apprentissage multi-tâches unifiée avec une optimisation cohérente grâce à une fonction de perte uniforme », notent les chercheurs dans leur publication. « Le résultat est un modèle de fondation pour la vision polyvalent, capable de gérer plusieurs tâches dans un seul cadre, régi par un ensemble cohérent de paramètres. L’activation des tâches se fait par le biais d’invites textuelles, similaire aux grands modèles de langage. »

Des performances surpassant les modèles plus grands

Florence-2 exécute efficacement un éventail de tâches—telles que la détection d'objets, la légende d'images, l'ancrage visuel et le questionnement visuel—lorsqu’il reçoit des entrées d'image et de texte. Il obtient des résultats comparables ou meilleurs que de nombreux modèles plus grands.

Par exemple, lors des tests de légende zéro-shot sur le jeu de données COCO, les versions 232M et 771M de Florence-2 ont surpassé le modèle Flamingo de DeepMind avec 80B de paramètres, réalisant des scores de 133 et 135,6, respectivement. Ils ont également surpassé le modèle Kosmos-2 de Microsoft, spécialisé dans l'ancrage visuel.

Lorsqu'il est affiné avec des données annotées publiquement, Florence-2 se dispute étroitement avec de plus grands modèles spécialisés dans des tâches telles que le questionnement visuel. « Le backbone pré-entraîné de Florence-2 améliore les performances sur les tâches en aval, comme la détection d'objets COCO et la segmentation d’instance, ainsi que la segmentation sémantique ADE20K, surpassant des modèles supervisés et auto-supervisés », ont déclaré les chercheurs. « Comparé aux modèles pré-entraînés sur ImageNet, le nôtre améliore l'efficacité de l’entraînement de 4X et améliore significativement les performances de 6,9, 5,5 et 5,9 points sur les jeux de données COCO et ADE20K. »

Actuellement, les versions pré-entraînées et affinées de Florence-2 (232M et 771M) sont disponibles sur Hugging Face sous licence MIT, permettant une utilisation commerciale et privée sans restriction. Il sera fascinant de voir comment les développeurs tireront parti de Florence-2 pour éliminer la nécessité de modèles de vision distincts pour différentes tâches. Ces modèles compacts et agnostiques vis-à-vis des tâches peuvent rationaliser le développement et réduire considérablement les coûts informatiques.

« Oracle lance des bases de données autonomes dans les centres de données Microsoft Azure pour faciliter la migration vers le cloud des entreprises »

Ilya Sutskever, co-fondateur d'OpenAI, lance une startup pour relever les défis de la superintelligence sûre.

Most people like

Sextingme

46.4K

Dans le monde en constante évolution de la technologie, trouver une compagnie à travers des sites de petites amies IA est devenu une tendance populaire. Ces plateformes offrent non seulement des conversations captivantes, mais aussi un soutien émotionnel et du divertissement. Que vous recherchiez de l'amitié, de la romance ou une forme d'interaction unique, ce guide explore les meilleurs sites de petites amies IA qui peuvent enrichir votre expérience numérique. Rejoignez-nous pour découvrir les caractéristiques, les avantages et les options remarquables disponibles pour vous aider à vous connecter avec votre compagnon virtuel dès aujourd'hui !

NSFW AI Chatbot

Zefram

7.7K

Libérer la puissance des représentants du développement des ventes surhumains pour le succès des ventes B2B.

ventes AI Voice Assistants

Jasper

1.5M

Jasper est une plateforme de création de contenu IA de pointe conçue pour permettre aux équipes des entreprises de produire facilement un contenu de haute qualité et sur mesure.

rédacteur IA AI Content Generator

AI Web Designer

27.6K

Dans le paysage numérique actuel, garder votre site web frais et engageant est essentiel pour attirer et fidéliser les visiteurs. Notre outil de refonte de site web basé sur l'IA utilise des algorithmes avancés pour analyser le comportement des utilisateurs et les tendances de design, garantissant une expérience en ligne fluide et dynamique. Cette solution innovante permet aux entreprises d'améliorer sans effort leur présence en ligne, d'augmenter l'engagement des utilisateurs et, en fin de compte, de booster les conversions. Découvrez comment notre technologie d'IA peut transformer votre site web en un puissant outil de croissance.

Refonte de site web d'IA AI Website Designer

Find AI tools in YBX