Salesforce lanza modelos de IA multimodal de código abierto 'xGen-MM' para mejorar la comprensión del lenguaje visual.

Salesforce, el líder en software empresarial, ha lanzado una nueva suite de modelos de IA multimodal de código abierto, conocida como xGen-MM (o BLIP-3). Este lanzamiento innovador promete acelerar el avance en el desarrollo de sistemas de inteligencia artificial sofisticados.

El marco xGen-MM, detallado en un artículo publicado en arXiv por investigadores de Salesforce AI Research, incluye modelos preentrenados, conjuntos de datos completos y código para ajuste fino. El modelo más grande, con 4 mil millones de parámetros, demuestra un rendimiento competitivo en varios benchmarks en comparación con modelos de código abierto similares.

Los autores mencionan: “Hacemos open-source nuestros modelos, conjuntos de datos a gran escala curados y nuestra base de código de ajuste fino para facilitar avances en la investigación de LMM.” Esta iniciativa representa un cambio en la tendencia hacia modelos propietarios, cuya democratización podría permitir el acceso a tecnología de IA multimodal de vanguardia.

Un diagrama esquemático del marco xGen-MM (BLIP-3) ilustra su procesamiento de datos intercalados de imagen y texto. El modelo utiliza un Vision Transformer para codificar imágenes, un muestreador de tokens para condensar información visual y un modelo de lenguaje grande preentrenado para generar texto, aplicando pérdidas relevantes a los tokens de texto.

La clave de la innovación de xGen-MM es su capacidad para gestionar “datos intercalados” que combinan múltiples imágenes y texto, lo que los investigadores consideran “la forma más natural de datos multimodal”. Esta habilidad permite a los modelos realizar tareas complejas, como responder preguntas sobre numerosas imágenes simultáneamente, resultando invaluable en campos diversos como diagnósticos médicos y vehículos autónomos.

El lanzamiento incluye varias variantes de modelos optimizados para tareas específicas: un modelo base preentrenado, una versión “ajustada por instrucciones” para seguir directivas y un modelo “ajustado por seguridad” diseñado para minimizar resultados dañinos. Esta selección refleja el creciente reconocimiento en la comunidad de IA de la necesidad de combinar capacidad con consideraciones éticas.

La decisión de Salesforce de abrir el código de estos modelos promete mejorar significativamente la innovación en el dominio de la IA multimodal. Al proporcionar a investigadores y desarrolladores acceso a modelos y conjuntos de datos de alta calidad, Salesforce crea oportunidades para una colaboración más amplia y un avance, contrastando con las estrategias cerradas de algunos gigantes tecnológicos.

No obstante, el lanzamiento de modelos tan influyentes plantea preguntas críticas sobre los riesgos y los impactos sociales asociados con sistemas de IA avanzados. Aunque Salesforce ha incorporado ajustes de seguridad para abordar estas preocupaciones, las repercusiones más amplias de modelos de IA avanzados y de acceso general continúan generando discusiones dentro de la comunidad tecnológica y más allá.

Los modelos xGen-MM fueron entrenados con conjuntos de datos extensos curados por Salesforce, que incluyen un conjunto de datos de un billón de tokens de datos intercalados de imagen y texto llamado “MINT-1T.” Además, se han desarrollado nuevos conjuntos de datos dirigidos al reconocimiento óptico de caracteres y la anclaje visual, esenciales para sistemas de IA que interactúan naturalmente con el entorno visual.

A medida que la tecnología de IA se vuelve cada vez más común, la iniciativa de código abierto de Salesforce equipa a los investigadores con herramientas vitales para mejorar su entendimiento y desarrollo de estos poderosos sistemas. Este movimiento también establece un estándar de transparencia en un campo a menudo criticado por su opacidad, lo que podría alentar a otras empresas tecnológicas a adoptar prácticas similares en su investigación de IA.

En una creciente carrera en IA, la estrategia abierta de Salesforce podría convertirse en un diferenciador clave. Al promover un entorno colaborativo alrededor de sus modelos, la compañía podría acelerar la innovación y cultivar relaciones positivas dentro de la comunidad investigadora. Sin embargo, la efectividad de este enfoque en el competitivo campo de soluciones de IA empresarial aún está por verse.

El código, los modelos y los conjuntos de datos para xGen-MM están disponibles en el repositorio de GitHub de Salesforce, con más recursos que se esperan en el sitio web del proyecto próximamente. A medida que investigadores y desarrolladores interactúen con estos modelos, el verdadero impacto de las contribuciones de Salesforce a la IA multimodal se irá revelando cada vez más en los próximos meses y años.

Most people like

Find AI tools in YBX