Hoje, a equipe de AI da Azure da Microsoft lançou um novo modelo de base para visão chamado Florence-2 na Hugging Face. Disponível sob uma licença MIT permissiva, este modelo se destaca em várias tarefas de visão e visão-linguagem através de uma estrutura unificada baseada em prompts. Ele oferece dois tamanhos — 232M e 771M parâmetros — e demonstra habilidades em tarefas como legendagem, detecção de objetos, ancoragem visual e segmentação, frequentemente superando outros grandes modelos de visão.
Embora o desempenho real do Florence-2 ainda precise ser avaliado, o modelo tem como objetivo fornecer às empresas uma estratégia coesa para diversas aplicações visuais, reduzindo a necessidade de múltiplos modelos específicos para tarefas que costumam limitar sua funcionalidade e exigir ajustes extensivos.
O Que Torna o Florence-2 Distinto?
Atualmente, os grandes modelos de linguagem (LLMs) são essenciais para operações empresariais, oferecendo serviços como resumidamente, criação de cópias de marketing e suporte ao cliente. Sua adaptabilidade em diferentes domínios é notável, levantando a questão para os pesquisadores: modelos de visão, geralmente projetados para tarefas específicas, podem alcançar uma versatilidade semelhante?
As tarefas de visão são inerentemente mais complexas do que o processamento de linguagem natural (NLP) baseado em texto, exigindo habilidades perceptivas sofisticadas. Um modelo universal deve compreender dados espaciais em várias escalas — desde conceitos amplos como localização de objetos até detalhes intrincados de pixels e legendas de alto nível.
A Microsoft identificou dois desafios principais na criação de um modelo unificado de visão: a falta de conjuntos de dados visuais amplamente anotados e a necessidade de um único framework de pré-treinamento que integre hierarquia espacial e granularidade semântica.
Para superar esses obstáculos, a Microsoft desenvolveu um conjunto de dados visual chamado FLD-5B, que compreende 5,4 bilhões de anotações para 126 milhões de imagens, detalhando desde descrições gerais até regiões específicas de objetos. Este conjunto de dados treinou o Florence-2, que utiliza uma arquitetura sequência-para-sequência, combinando um codificador de imagem com um codificador-decodificador multimodal. Esse design permite que o Florence-2 gerencie várias tarefas de visão sem a necessidade de mudanças arquitetônicas específicas para cada tarefa.
“Todas as anotações do conjunto de dados FLD-5B são padronizadas em saídas textuais, permitindo uma abordagem unificada de aprendizado multi-tarefa com otimização consistente por meio de uma função de perda uniforme,” observaram os pesquisadores em seu artigo. “O resultado é um modelo de base para visão versátil, capaz de lidar com múltiplas tarefas dentro de uma única estrutura, regido por um conjunto consistente de parâmetros. A ativação de tarefas é realizada através de prompts textuais, semelhante aos grandes modelos de linguagem.”
Desempenho Acima de Modelos Maiores
O Florence-2 executa efetivamente uma variedade de tarefas — como detecção de objetos, legendagem, ancoragem visual e perguntas visuais — quando recebe entradas de imagem e texto. Notavelmente, ele alcança resultados comparáveis ou melhores do que muitos modelos maiores.
Por exemplo, em testes de legendagem zero-shot no conjunto de dados COCO, tanto as versões 232M quanto 771M do Florence-2 superaram o modelo Flamingo de 80B parâmetros da DeepMind, com pontuações de 133 e 135,6, respectivamente. Eles também superaram o próprio modelo Kosmos-2 da Microsoft, que é especializado em ancoragem visual.
Quando ajustado com dados publicamente anotados, o Florence-2 compete de perto com modelos maiores especializados em tarefas como perguntas visuais.
“A estrutura pré-treinada do Florence-2 melhora o desempenho em tarefas subsequentes, como detecção de objetos no COCO e segmentação de instâncias, além da segmentação semântica do ADE20K, superando modelos supervisionados e auto-supervisionados,” afirmaram os pesquisadores. “Comparado a modelos pré-treinados no ImageNet, o nosso aumenta a eficiência de treinamento em 4X e melhora significativamente o desempenho em 6,9, 5,5 e 5,9 pontos nos conjuntos de dados COCO e ADE20K.”
Atualmente, ambas as versões pré-treinadas e ajustadas do Florence-2 (232M e 771M) estão disponíveis na Hugging Face sob a licença MIT, permitindo uso comercial e privado sem restrições.
Será fascinante ver como os desenvolvedores utilizam o Florence-2 para eliminar a necessidade de modelos de visão separados para diferentes tarefas. Esses modelos compactos, independentes de tarefas, podem simplificar o desenvolvimento e reduzir significativamente os custos computacionais.