Hoy, el equipo de Azure AI de Microsoft lanzó un nuevo modelo de base de visión llamado Florence-2 en Hugging Face. Este modelo, disponible bajo una licencia MIT permisiva, sobresale en diversas tareas de visión y visión-lenguaje a través de un marco unificado y basado en indicaciones. Ofrece dos tamaños: 232M y 771M de parámetros, y demuestra capacidades en tareas como generación de descripciones, detección de objetos, anclaje visual y segmentación, superando a menudo a otros grandes modelos de visión.
Si bien el rendimiento real de Florence-2 aún debe ser evaluado, su objetivo es proporcionar a las empresas una estrategia cohesiva para aplicaciones visuales diversas, lo que reducirá la necesidad de múltiples modelos específicos que limitan su funcionalidad y requieren ajustes exhaustivos.
¿Qué distingue a Florence-2?
Los modelos de lenguaje a gran escala (LLMs) son actualmente fundamentales para las operaciones empresariales al ofrecer servicios como resumen, creación de copias de marketing y atención al cliente. Su adaptabilidad en diferentes dominios ha sido notable, lo que plantea una pregunta para los investigadores: ¿Pueden los modelos de visión, típicamente diseñados para tareas específicas, lograr una versatilidad similar?
Las tareas de visión son inherentemente más complejas que el procesamiento de lenguaje natural (NLP) basado en texto, ya que requieren habilidades perceptuales sofisticadas. Un modelo universal debe comprender datos espaciales en diversas escalas, abarcando desde conceptos generales, como ubicaciones de objetos, hasta detalles intrincados de píxeles y descripciones de alto nivel.
Microsoft identificó dos desafíos principales en la creación de un modelo de visión unificado: la falta de conjuntos de datos visuales extensivamente anotados y la necesidad de un único marco de preentrenamiento que integre jerarquía espacial y granularidad semántica.
Para superar estos obstáculos, Microsoft desarrolló un conjunto de datos visual llamado FLD-5B, que consta de 5.4 mil millones de anotaciones para 126 millones de imágenes, que detallan desde descripciones generales hasta regiones específicas de objetos. Este conjunto de datos entrenó a Florence-2, que utiliza una arquitectura de secuencia a secuencia combinando un codificador de imágenes con un codificador-decodificador multimodal. Este diseño permite a Florence-2 gestionar diversas tareas visuales sin necesidad de cambios arquitectónicos específicos para cada tarea.
"Todas las anotaciones en el conjunto de datos FLD-5B están estandarizadas en salidas textuales, permitiendo un enfoque unificado de aprendizaje multi-tarea con optimización consistente a través de una función de pérdida uniforme", señalaron los investigadores en su artículo. "El resultado es un modelo de base de visión versátil capaz de manejar múltiples tareas dentro de un solo marco y regido por un conjunto coherente de parámetros. La activación de tareas se logra mediante indicaciones textuales, similar a los grandes modelos de lenguaje."
Rendimiento superior a modelos más grandes
Florence-2 ejecuta eficazmente una variedad de tareas, como detección de objetos, generación de descripciones, anclaje visual y respuesta a preguntas visuales, cuando se le proporcionan entradas de imagen y texto. Notablemente, obtiene resultados comparables o mejores que muchos modelos más grandes.
Por ejemplo, en pruebas de generación de descripciones en cero disparos sobre el conjunto de datos COCO, tanto las versiones de 232M como de 771M de Florence-2 superaron al modelo Flamingo de 80B de DeepMind, anotando 133 y 135.6, respectivamente. También superaron al modelo Kosmos-2 de Microsoft, especializado en anclaje visual.
Cuando se ajusta con datos anotados públicamente, Florence-2 compite de cerca con modelos especializados más grandes en tareas como respuesta a preguntas visuales.
"La estructura preentrenada de Florence-2 mejora el rendimiento en tareas posteriores, como la detección de objetos COCO y la segmentación de instancias, así como la segmentación semántica ADE20K, superando tanto a modelos supervisados como autocompensados", afirmaron los investigadores. "En comparación con modelos preentrenados en ImageNet, el nuestro mejora la eficiencia de entrenamiento en 4X y mejora significativamente el rendimiento en 6.9, 5.5 y 5.9 puntos en los conjuntos de datos COCO y ADE20K."
Actualmente, tanto las versiones preentrenadas como ajustadas de Florence-2 (232M y 771M) están disponibles en Hugging Face bajo la licencia MIT, lo que permite un uso comercial y privado sin restricciones.
Será fascinante ver cómo los desarrolladores aprovechan Florence-2 para eliminar la necesidad de modelos de visión separados para diferentes tareas. Estos modelos compactos y agnósticos a tareas pueden optimizar el desarrollo y reducir significativamente los costos de computación.