Salesforce, líder em software corporativo, lançou uma nova suíte de modelos de IA multimodal de código aberto, conhecidos como xGen-MM (ou BLIP-3). Essa inovação promete acelerar o avanço no desenvolvimento de sistemas sofisticados de inteligência artificial.
O framework xGen-MM, detalhado em um artigo publicado no arXiv por pesquisadores da Salesforce AI Research, é composto por modelos pré-treinados, conjuntos de dados abrangentes e código de ajuste fino. O maior modelo, com 4 bilhões de parâmetros, apresenta desempenho competitivo em vários benchmarks em comparação com modelos semelhantes de código aberto.
Os autores afirmam: “Disponibilizamos nossos modelos, conjuntos de dados de grande escala curados e nossa base de código de ajuste fino para facilitar novos avanços na pesquisa de LMM.” Essa iniciativa representa uma mudança em relação à tendência de modelos proprietários, potencialmente democratizando o acesso à tecnologia de IA multimodal de ponta.
Um diagrama esquemático do framework xGen-MM (BLIP-3) ilustra como ele processa dados intercalados de imagem e texto. O modelo utiliza um Vision Transformer para codificar imagens, um amostrador de tokens para condensar informações visuais e um modelo de linguagem de grande porte pré-treinado para gerar texto, com perdas relevantes aplicadas aos tokens de texto.
A inovação do xGen-MM reside na sua capacidade de gerenciar “dados intercalados” que combinam múltiplas imagens e textos, considerados pelos pesquisadores como “a forma mais natural de dados multimodais.” Essa habilidade permite que os modelos realizem tarefas complexas, como responder a perguntas sobre várias imagens simultaneamente, sendo inestimável em diversos campos, como diagnóstico médico e veículos autônomos.
O lançamento inclui várias variantes de modelos otimizadas para tarefas específicas: um modelo base pré-treinado, uma versão “ajustada por instruções” para seguir diretrizes e um modelo “ajustado para segurança” visando minimizar saídas prejudiciais. Essa seleção reflete o reconhecimento crescente na comunidade de IA da necessidade de unir capacidade e considerações éticas.
A decisão da Salesforce de tornar esses modelos de código aberto promete aprimorar significativamente a inovação no domínio da IA multimodal. Ao proporcionar acesso a modelos e conjuntos de dados de alta qualidade, a Salesforce cria oportunidades para colaboração mais ampla e avanço, contrastando com as estratégias fechadas de alguns gigantes da tecnologia.
No entanto, o lançamento de modelos tão influentes levanta questões críticas sobre riscos potenciais e impactos sociais associados a sistemas avançados de IA. Embora a Salesforce tenha incorporado ajustes de segurança para abordar essas preocupações, as implicações mais amplas de modelos avançados de IA amplamente acessíveis continuam a estimular discussões na comunidade tecnológica e além.
Os modelos xGen-MM foram treinados em extensos conjuntos de dados curados pela Salesforce, incluindo um conjunto de dados de um trilhão de tokens de dados intercalados de imagem e texto conhecido como “MINT-1T.” Além disso, novos conjuntos de dados focados em reconhecimento óptico de caracteres e ancoragem visual foram desenvolvidos, essenciais para que os sistemas de IA interajam de forma natural com o ambiente visual.
À medida que a tecnologia de IA se torna cada vez mais prevalente, a iniciativa de código aberto da Salesforce oferece aos pesquisadores ferramentas vitais para aprimorar sua compreensão e desenvolvimento desses potentes sistemas. Essa ação também estabelece um padrão de transparência em um campo frequentemente criticado pela sua opacidade, possivelmente encorajando outras empresas de tecnologia a adotar práticas semelhantes em suas pesquisas de IA.
Em uma corrida de IA cada vez mais intensa, a estratégia aberta da Salesforce pode se tornar um diferencial crucial. Ao promover um ambiente colaborativo em torno de seus modelos, a empresa pode fomentar uma inovação mais rápida e cultivar relacionamentos positivos dentro da comunidade de pesquisa. No entanto, a eficácia dessa abordagem no competitivo cenário de soluções de IA corporativa ainda precisa ser observada.
O código, modelos e conjuntos de dados do xGen-MM estão disponíveis no repositório do GitHub da Salesforce, com mais recursos esperados no site do projeto em breve. À medida que pesquisadores e desenvolvedores interagem com esses modelos, o verdadeiro impacto das contribuições da Salesforce para a IA multimodal começará a se revelar nos próximos meses e anos.