Os pesquisadores da Apple desenvolveram um método inovador para treinar grandes modelos de linguagem (LLMs) que integra eficientemente informações textuais e visuais. Essa inovação é descrita no artigo intitulado "MM1: Um Método de Pré-treinamento para LLMs Multimodais, Análise e Insights", que apresenta um novo caminho para criar sistemas de inteligência artificial mais inteligentes e versáteis.
Ao utilizar um conjunto de dados diversificado que inclui pares de imagens e legendas, documentos intercalados de texto e imagem, além de dados puramente textuais, a Apple afirma que seu modelo MM1 apresenta precisão superior em tarefas como geração de legendas para imagens, resposta a perguntas visuais e raciocínio em linguagem natural. Esta pesquisa estabelece novos padrões em IA ao focar na combinação de diferentes tipos de dados de treinamento e arquiteturas de modelos, permitindo que as máquinas compreendam e gerem respostas com base em pistas visuais e linguísticas. Essas capacidades são cruciais para tarefas que exigem interpretações complexas do mundo, como explicar imagens detalhadas ou responder a perguntas sobre elementos visuais.
O artigo também destaca as impressionantes habilidades de aprendizado contextual do MM1, especialmente em configurações com até 3 bilhões de parâmetros. Notavelmente, seu raciocínio em "cadeia de pensamentos" permite que o modelo resolva problemas complexos e abertos usando apenas alguns exemplos.
Esta pesquisa representa um avanço significativo para a Apple na melhoria de suas capacidades em IA em meio à intensa concorrência. Relatórios recentes indicam que a Apple está em conversas com o Google para licenciar seu LLM generativo Gemini, visando apoiar novos recursos do iOS 18 no iPhone.