Microsoft Lança o Florence-2: Um Modelo Unificado Projetado para Tarefas Visuais Diversas

Home Notícias de IA Microsoft Lança o Florence-2: Um Modelo Unificado Projetado para Tarefas Visuais Diversas

Hoje, a equipe de AI da Azure da Microsoft lançou um novo modelo de base para visão chamado Florence-2 na Hugging Face. Disponível sob uma licença MIT permissiva, este modelo se destaca em várias tarefas de visão e visão-linguagem através de uma estrutura unificada baseada em prompts. Ele oferece dois tamanhos — 232M e 771M parâmetros — e demonstra habilidades em tarefas como legendagem, detecção de objetos, ancoragem visual e segmentação, frequentemente superando outros grandes modelos de visão.

Embora o desempenho real do Florence-2 ainda precise ser avaliado, o modelo tem como objetivo fornecer às empresas uma estratégia coesa para diversas aplicações visuais, reduzindo a necessidade de múltiplos modelos específicos para tarefas que costumam limitar sua funcionalidade e exigir ajustes extensivos.

O Que Torna o Florence-2 Distinto?

Atualmente, os grandes modelos de linguagem (LLMs) são essenciais para operações empresariais, oferecendo serviços como resumidamente, criação de cópias de marketing e suporte ao cliente. Sua adaptabilidade em diferentes domínios é notável, levantando a questão para os pesquisadores: modelos de visão, geralmente projetados para tarefas específicas, podem alcançar uma versatilidade semelhante?

As tarefas de visão são inerentemente mais complexas do que o processamento de linguagem natural (NLP) baseado em texto, exigindo habilidades perceptivas sofisticadas. Um modelo universal deve compreender dados espaciais em várias escalas — desde conceitos amplos como localização de objetos até detalhes intrincados de pixels e legendas de alto nível.

A Microsoft identificou dois desafios principais na criação de um modelo unificado de visão: a falta de conjuntos de dados visuais amplamente anotados e a necessidade de um único framework de pré-treinamento que integre hierarquia espacial e granularidade semântica.

Para superar esses obstáculos, a Microsoft desenvolveu um conjunto de dados visual chamado FLD-5B, que compreende 5,4 bilhões de anotações para 126 milhões de imagens, detalhando desde descrições gerais até regiões específicas de objetos. Este conjunto de dados treinou o Florence-2, que utiliza uma arquitetura sequência-para-sequência, combinando um codificador de imagem com um codificador-decodificador multimodal. Esse design permite que o Florence-2 gerencie várias tarefas de visão sem a necessidade de mudanças arquitetônicas específicas para cada tarefa.

“Todas as anotações do conjunto de dados FLD-5B são padronizadas em saídas textuais, permitindo uma abordagem unificada de aprendizado multi-tarefa com otimização consistente por meio de uma função de perda uniforme,” observaram os pesquisadores em seu artigo. “O resultado é um modelo de base para visão versátil, capaz de lidar com múltiplas tarefas dentro de uma única estrutura, regido por um conjunto consistente de parâmetros. A ativação de tarefas é realizada através de prompts textuais, semelhante aos grandes modelos de linguagem.”

Desempenho Acima de Modelos Maiores

O Florence-2 executa efetivamente uma variedade de tarefas — como detecção de objetos, legendagem, ancoragem visual e perguntas visuais — quando recebe entradas de imagem e texto. Notavelmente, ele alcança resultados comparáveis ou melhores do que muitos modelos maiores.

Por exemplo, em testes de legendagem zero-shot no conjunto de dados COCO, tanto as versões 232M quanto 771M do Florence-2 superaram o modelo Flamingo de 80B parâmetros da DeepMind, com pontuações de 133 e 135,6, respectivamente. Eles também superaram o próprio modelo Kosmos-2 da Microsoft, que é especializado em ancoragem visual.

Quando ajustado com dados publicamente anotados, o Florence-2 compete de perto com modelos maiores especializados em tarefas como perguntas visuais.

“A estrutura pré-treinada do Florence-2 melhora o desempenho em tarefas subsequentes, como detecção de objetos no COCO e segmentação de instâncias, além da segmentação semântica do ADE20K, superando modelos supervisionados e auto-supervisionados,” afirmaram os pesquisadores. “Comparado a modelos pré-treinados no ImageNet, o nosso aumenta a eficiência de treinamento em 4X e melhora significativamente o desempenho em 6,9, 5,5 e 5,9 pontos nos conjuntos de dados COCO e ADE20K.”

Atualmente, ambas as versões pré-treinadas e ajustadas do Florence-2 (232M e 771M) estão disponíveis na Hugging Face sob a licença MIT, permitindo uso comercial e privado sem restrições.

Será fascinante ver como os desenvolvedores utilizam o Florence-2 para eliminar a necessidade de modelos de visão separados para diferentes tarefas. Esses modelos compactos, independentes de tarefas, podem simplificar o desenvolvimento e reduzir significativamente os custos computacionais.

Oracle Lança Bancos de Dados Autônomos em Data Centers do Microsoft Azure para Facilitar a Migração de Nuvem Empresarial

Ilya Sutskever, co-fundador da OpenAI, lança startup para enfrentar os desafios da superinteligência segura.

Most people like

Picsi.Ai

65.7K

Experimente uma precisão incomparável na tecnologia de transformação facial impulsionada por IA.

Morfologia facial com IA Other

Hubtype

23.4K

Desbloqueando o Engajamento do Cliente de Próxima Geração com Apps Conversacionais

engajamento do cliente AI Customer Service Assistant

Kniru

9.1K

Apresentando um Aplicativo de Gerenciamento Financeiro Pessoal com Tecnologia de IA: Sua Solução Inteligente para Administrar Dinheiro.

Finanças impulsionadas por IA AI Chatbot

Roam Around

56.5K

Apresentamos o Roam Around, o assistente de viagem por IA que cria itinerários personalizados para aprimorar sua experiência de planejamento de viagens. Deixe o Roam Around remover a complicação de organizar suas viagens, garantindo uma jornada tranquila do início ao fim.

viagem AI Trip Planner

Find AI tools in YBX