Microsoft Lanza Florence-2: Un Modelo Unificado Diseñado para Diversas Tareas Visuales

Home Noticias de IA Microsoft Lanza Florence-2: Un Modelo Unificado Diseñado para Diversas Tareas Visuales

Hoy, el equipo de Azure AI de Microsoft lanzó un nuevo modelo de base de visión llamado Florence-2 en Hugging Face. Este modelo, disponible bajo una licencia MIT permisiva, sobresale en diversas tareas de visión y visión-lenguaje a través de un marco unificado y basado en indicaciones. Ofrece dos tamaños: 232M y 771M de parámetros, y demuestra capacidades en tareas como generación de descripciones, detección de objetos, anclaje visual y segmentación, superando a menudo a otros grandes modelos de visión.

Si bien el rendimiento real de Florence-2 aún debe ser evaluado, su objetivo es proporcionar a las empresas una estrategia cohesiva para aplicaciones visuales diversas, lo que reducirá la necesidad de múltiples modelos específicos que limitan su funcionalidad y requieren ajustes exhaustivos.

¿Qué distingue a Florence-2?

Los modelos de lenguaje a gran escala (LLMs) son actualmente fundamentales para las operaciones empresariales al ofrecer servicios como resumen, creación de copias de marketing y atención al cliente. Su adaptabilidad en diferentes dominios ha sido notable, lo que plantea una pregunta para los investigadores: ¿Pueden los modelos de visión, típicamente diseñados para tareas específicas, lograr una versatilidad similar?

Las tareas de visión son inherentemente más complejas que el procesamiento de lenguaje natural (NLP) basado en texto, ya que requieren habilidades perceptuales sofisticadas. Un modelo universal debe comprender datos espaciales en diversas escalas, abarcando desde conceptos generales, como ubicaciones de objetos, hasta detalles intrincados de píxeles y descripciones de alto nivel.

Microsoft identificó dos desafíos principales en la creación de un modelo de visión unificado: la falta de conjuntos de datos visuales extensivamente anotados y la necesidad de un único marco de preentrenamiento que integre jerarquía espacial y granularidad semántica.

Para superar estos obstáculos, Microsoft desarrolló un conjunto de datos visual llamado FLD-5B, que consta de 5.4 mil millones de anotaciones para 126 millones de imágenes, que detallan desde descripciones generales hasta regiones específicas de objetos. Este conjunto de datos entrenó a Florence-2, que utiliza una arquitectura de secuencia a secuencia combinando un codificador de imágenes con un codificador-decodificador multimodal. Este diseño permite a Florence-2 gestionar diversas tareas visuales sin necesidad de cambios arquitectónicos específicos para cada tarea.

"Todas las anotaciones en el conjunto de datos FLD-5B están estandarizadas en salidas textuales, permitiendo un enfoque unificado de aprendizaje multi-tarea con optimización consistente a través de una función de pérdida uniforme", señalaron los investigadores en su artículo. "El resultado es un modelo de base de visión versátil capaz de manejar múltiples tareas dentro de un solo marco y regido por un conjunto coherente de parámetros. La activación de tareas se logra mediante indicaciones textuales, similar a los grandes modelos de lenguaje."

Rendimiento superior a modelos más grandes

Florence-2 ejecuta eficazmente una variedad de tareas, como detección de objetos, generación de descripciones, anclaje visual y respuesta a preguntas visuales, cuando se le proporcionan entradas de imagen y texto. Notablemente, obtiene resultados comparables o mejores que muchos modelos más grandes.

Por ejemplo, en pruebas de generación de descripciones en cero disparos sobre el conjunto de datos COCO, tanto las versiones de 232M como de 771M de Florence-2 superaron al modelo Flamingo de 80B de DeepMind, anotando 133 y 135.6, respectivamente. También superaron al modelo Kosmos-2 de Microsoft, especializado en anclaje visual.

Cuando se ajusta con datos anotados públicamente, Florence-2 compite de cerca con modelos especializados más grandes en tareas como respuesta a preguntas visuales.

"La estructura preentrenada de Florence-2 mejora el rendimiento en tareas posteriores, como la detección de objetos COCO y la segmentación de instancias, así como la segmentación semántica ADE20K, superando tanto a modelos supervisados como autocompensados", afirmaron los investigadores. "En comparación con modelos preentrenados en ImageNet, el nuestro mejora la eficiencia de entrenamiento en 4X y mejora significativamente el rendimiento en 6.9, 5.5 y 5.9 puntos en los conjuntos de datos COCO y ADE20K."

Actualmente, tanto las versiones preentrenadas como ajustadas de Florence-2 (232M y 771M) están disponibles en Hugging Face bajo la licencia MIT, lo que permite un uso comercial y privado sin restricciones.

Será fascinante ver cómo los desarrolladores aprovechan Florence-2 para eliminar la necesidad de modelos de visión separados para diferentes tareas. Estos modelos compactos y agnósticos a tareas pueden optimizar el desarrollo y reducir significativamente los costos de computación.

"Oracle Lanza Bases de Datos Autónomas en los Centros de Datos de Microsoft Azure para Facilitar la Migración de la Nube Empresarial"

El cofundador de OpenAI, Ilya Sutskever, lanza una startup para abordar los desafíos de una superinteligencia segura.

Most people like

Online Llama 3.1 405B Chat by Meta AI

14.8K

Presentamos un innovador modelo de IA de código abierto con impresionantes 405 mil millones de parámetros. Este avanzado modelo está diseñado para expandir los límites del aprendizaje automático y la inteligencia artificial, ofreciendo a investigadores y desarrolladores capacidades inigualables para sus proyectos. Ya sea que estés trabajando en procesamiento de lenguaje natural, visión por computadora o soluciones innovadoras de IA, este poderoso recurso está preparado para transformar tu enfoque y desbloquear nuevas oportunidades. Explora el futuro de la IA con esta herramienta de vanguardia que mejora la creatividad y la eficiencia en una variedad de aplicaciones.

Modelo de IA avanzada Large Language Models (LLMs)

Tweetlio

9.5K

Descubre la herramienta de IA definitiva diseñada para simplificar la programación de tus publicaciones en Twitter y aumentar el compromiso. Perfecta para individuos y empresas, esta solución innovadora no solo organiza tus publicaciones, sino que también las optimiza para lograr la máxima interacción. Experimenta una forma más inteligente de conectar en Twitter y eleva tu presencia en línea.

Gestión de Twitter AI Twitter Assistant

Transcope

86.7K

Transcope es una herramienta de escritura de IA de vanguardia impulsada por GPT-4, diseñada para ayudarte a crear contenido de alta calidad y optimizado para SEO sin esfuerzo. Desbloquea el potencial de la tecnología de escritura avanzada para elevar tu presencia en línea con Transcope.

Redacción AI AI Content Generator

No Code Founders

235.4K

No Code Founders capacita a emprendedores no técnicos para lanzar y hacer crecer negocios en línea sin esfuerzo, sin necesidad de habilidades de programación.

sin código AI App Builder

Find AI tools in YBX