A Apple lançou recentemente seu mais novo modelo de IA multimodal, o MM1.5, com uma escala de 30 bilhões de parâmetros. Esta nova versão aprimora o modelo anterior, MM1, com melhorias significativas.
O MM1.5 segue princípios de treinamento orientados por dados, analisando de perto como dados mistos impactam o desempenho do modelo ao longo de vários ciclos de treinamento. A documentação do novo modelo foi publicada na plataforma Hugging Face, oferecendo uma variedade de configurações de parâmetros que vão de 1 bilhão a 30 bilhões, destacando capacidades em reconhecimento de imagem e raciocínio em linguagem natural.
Nesta atualização, a equipe de pesquisa da Apple otimizou a estratégia de mistura de dados, levando a melhorias substanciais no desempenho do modelo em áreas como compreensão de imagem com múltiplos textos, referência visual e localização, além de raciocínio com múltiplas imagens. Estudos indicam que, durante a fase de pré-treinamento do MM1.5, a incorporação de dados de OCR de alta qualidade e descrições sintéticas de imagens melhorou significativamente a capacidade do modelo de entender imagens contendo texto extenso. Além disso, na fase de ajuste fino supervisionado, a equipe analisou os efeitos de vários tipos de dados no desempenho do modelo, otimizando as configurações de dados de instrução visual, permitindo que modelos menores (como os com 1 bilhão e 3 bilhões de parâmetros) alcançassem resultados notáveis.
Além disso, a Apple introduziu modelos especializados, como o MM1.5-Video para compreensão de vídeo e o MM1.5-UI para compreensão de interface de usuário (UI) em dispositivos móveis. O modelo MM1.5-UI será a base da IA da Apple para o ecossistema iOS, gerenciando de forma eficiente tarefas de referência visual e localização, além de resumir funções de tela ou interagir através de conversas com o usuário.
Apesar do desempenho excepcional do modelo MM1.5 em múltiplos benchmarks, a equipe da Apple está comprometida em aprimorar ainda mais a capacidade da IA, integrando dados de texto, imagem e interação do usuário para desenvolver arquiteturas mais complexas. Este esforço contínuo visa fortalecer a efetividade da IA "marca Apple", tornando-a cada vez mais poderosa na compreensão da interface de usuário de dispositivos móveis.