Após o Microsoft Build e o Google I/O, a Apple enfrentou grandes expectativas para exibir suas capacidades de IA em dispositivo na Conferência Mundial de Desenvolvedores 2024. A empresa integrou eficientemente a IA generativa em sua experiência do usuário em todos os dispositivos, demonstrando avanços impressionantes nessa área.
Uma característica de destaque nas demonstrações da Apple foi o extenso processamento em dispositivo. Aproveitando seus avançados processadores e uma vasta pesquisa aberta, a Apple forneceu funcionalidades de IA de alta qualidade e baixa latência em seus telefones e computadores. Aqui está o que aprendemos sobre a IA em dispositivo da Apple:
Visão Geral do Modelo da Apple
Na apresentação do Estado da União da Apple e em uma postagem no blog divulgada em 10 de junho, foi revelado que a empresa utiliza um modelo de 3 bilhões de parâmetros. Embora a Apple não tenha divulgado o modelo base específico utilizado, lançou recentemente diversos modelos abertos, incluindo a família de modelos de linguagem OpenELM, que possui uma versão de 3 bilhões de parâmetros otimizada para dispositivos com recursos limitados.
O OpenELM passou por modificações para aprimorar a qualidade do modelo sem aumentar o número de parâmetros, indicando que o modelo fundamental da Apple pode ser uma variante especializada do OpenELM-3B. Este modelo foi treinado com 1,8 trilhões de tokens de conjuntos de dados abertos, incluindo dados licenciados e publicamente disponíveis coletados pelo AppleBot.
Parcerias para Dados Licenciados
A Apple estabeleceu parcerias para dados licenciados, incluindo um contrato de US$ 25 a 50 milhões com a Shutterstock para imagens e um potencial acordo de US$ 50 milhões com grandes organizações de notícias e publicações.
Técnicas de Treinamento e Otimização
O modelo foi ajustado para seguir instruções de forma eficaz através da aprendizagem por reforço com feedback humano (RLHF) e um algoritmo de ajuste por amostragem de rejeição que envolve um comitê de professores. O RLHF utiliza dados anotados por humanos para refinar os modelos de linguagem com base nas preferências dos usuários, ganhando popularidade após o lançamento do ChatGPT. A amostragem de rejeição gera múltiplos exemplos de treinamento, selecionando o melhor resultado para atualizações do modelo, técnica também empregada pela equipe do Llama-2.
Otimizações Técnicas
A Apple implementou diversas técnicas para aprimorar o desempenho do modelo enquanto mantém a eficiência de recursos. O modelo fundamental utiliza a "atenção agrupada por consulta" (GQA), desenvolvida pela Google Research, para acelerar a velocidade de inferência com impacto mínimo de memória e processamento. O modelo também faz uso da "paletização", que comprime pesos usando tabelas de consulta, juntamente com a quantização, que reduz o número de bits por parâmetro.
Os modelos são otimizados para dispositivos com chips M1 e posteriores, incluindo o iPhone 15 Pro e Pro Max que apresentam o chip A17 Pro. Isso sugere o uso de técnicas de otimização adaptadas para os chips da Apple, como o grande modelo de linguagem (LLM) em flash introduzido no ano passado.
Métricas de Desempenho
Os resultados reportados em um iPhone 15 Pro mostram uma latência de tempo até o primeiro token de aproximadamente 0,6 milissegundos por token de prompt, com uma taxa de geração de 30 tokens por segundo. Por exemplo, enviar um prompt de 1.000 tokens resultaria em uma resposta dentro de 0,6 segundos, gerando tokens a uma taxa de 30 por segundo—demonstrando um desempenho impressionante.
Personalização com Adaptação de Baixa Classificação
Para aprimorar a funcionalidade sem duplicar o modelo, engenheiros da Apple desenvolveram versões ajustadas utilizando adaptadores de adaptação de baixa classificação (LoRA). O LoRA atualiza um pequeno subconjunto de pesos para tarefas específicas, e os adaptadores—cada um com menos de 100 megabytes—permitem que dispositivos armazenem múltiplas opções para diversas funções como revisão, resumir e responder e-mails.
Avaliação de Desempenho
De acordo com as avaliações da Apple, seu modelo geralmente supera modelos de tamanho similar e até maiores, incluindo Gemma-2B, Mistral-7B e Phi-3B-Mini.
Em resumo, a IA em dispositivo da Apple ilustra o potencial de combinar modelos compactos com técnicas eficazes de otimização, dados de qualidade e hardware robusto. A empresa fez avanços significativos em equilibrar precisão e experiência do usuário. Será intrigante ver como essa tecnologia irá se comportar quando for lançada para os consumidores neste outono.