Pesquisadores da Apple revelaram métodos inovadores para o treinamento de grandes modelos de linguagem (LLMs) que combinam texto e imagens, representando um avanço significativo na inteligência artificial (IA) e aprimorando produtos futuros da Apple. Essa pesquisa é detalhada em um artigo intitulado "MM1: Métodos, Análise e Insights do Pré-Treinamento Multimodal de LLM", recentemente publicado no arxiv.org. O estudo ilustra como a combinação estratégica de diferentes tipos de dados de treinamento e arquiteturas de modelos pode alcançar um desempenho de ponta em uma variedade de benchmarks de IA.
Os pesquisadores afirmam: "Demonstramos que o pré-treinamento multimodal em larga escala, usando uma mistura cuidadosa de dados de imagem-texto, textos entrelaçados e dados apenas textuais, é essencial para alcançar resultados de poucos exemplos de ponta em múltiplos benchmarks." Treinar modelos em conjuntos de dados diversos que incluem informações visuais e linguísticas permitiu que os modelos MM1 se destacassem em tarefas como legendagem de imagens, resposta a perguntas visuais e inferência em linguagem natural.
Principais Descobertas sobre Componentes Visuais
A escolha do codificador de imagem e da resolução de entrada impacta significativamente o desempenho do modelo. O estudo revela: “O codificador de imagem, junto com a resolução da imagem e a contagem de tokens de imagem, tem um efeito substancial, enquanto o design do conector visão-linguagem é de importância comparativamente irrelevante.” Isso enfatiza que a ampliação e o refinamento contínuos dos componentes visuais nesses modelos multimodais são cruciais para desbloquear um potencial ainda maior.
Notavelmente, o maior modelo MM1, com 30 bilhões de parâmetros, demonstrou fortes capacidades de aprendizado em contexto, permitindo realizar raciocínio em múltiplos passos com várias imagens de entrada usando sugestões de "cadeia de pensamento" de poucos exemplos. Isso indica que grandes modelos multimodais podem abordar efetivamente problemas complexos e abertos que necessitam de compreensão e geração de linguagem fundamentadas.
Estratégia de Investimento em IA da Apple
A Apple está aumentando significativamente seus investimentos em IA para acompanhar rivais como Google, Microsoft e Amazon, que avançaram na integração da IA generativa em seus produtos. Reportadamente, a Apple planeja gastar $1 bilhão anualmente no desenvolvimento de IA. Fontes internas sugerem que a Apple está desenvolvendo uma estrutura de modelo de linguagem chamada "Ajax" e um chatbot conhecido como "Apple GPT." Essas tecnologias visam aprimorar produtos como Siri, Mensagens e Apple Music, permitindo recursos como a geração automática de playlists personalizadas e assistência na escrita de código.
O CEO da Apple, Tim Cook, destacou a importância da IA, afirmando: “Vemos a IA e o aprendizado de máquina como tecnologias fundamentais, integradas em praticamente todos os produtos que lançamos. Embora não possa compartilhar detalhes específicos, você pode ter certeza de que estamos investindo significativamente nesse setor, e você verá avanços nos produtos como resultado."
O Cenário Competitivo de IA
A estratégia da Apple historicamente favoreceu uma abordagem de seguidor rápido em vez de ser a pioneira nas tendências tecnológicas. No entanto, à medida que a IA se prepara para revolucionar o cenário digital, é crucial para a Apple manter sua vantagem competitiva. A pesquisa MM1 exemplifica a capacidade da Apple para inovações de ponta, mas ainda é incerto se a empresa conseguirá agir rapidamente o suficiente para prosperar no cenário em evolução da IA.
Todos os olhos estarão na Conferência Mundial de Desenvolvedores da Apple em junho, onde novos recursos e ferramentas de desenvolvedores impulsionados por IA são esperados. Enquanto isso, pequenos avanços em IA, como a ferramenta de animação Keyframer, refletem o progresso constante nos esforços de pesquisa da Apple. Como Tim Cook sugeriu, "Estamos empolgados para compartilhar detalhes do nosso trabalho em IA mais tarde este ano." Esse trabalho parece incluir esforços significativos para se destacar em inteligência multimodal, e em breve poderemos testemunhar o papel influente da Apple na nova era da IA avançada e semelhante ao ser humano.