O Modelo ReALM da Apple Amplifica a Inteligência da Siri
Em 2 de abril, foi noticiado que a Apple está avançando em sua exploração na inteligência artificial com um novo modelo chamado ReALM, projetado para aprimorar significativamente as capacidades da Siri. Estudos recentes revelam que o ReALM supera o renomado modelo de linguagem da OpenAI, o GPT-4.0, embora a habilidade da Siri de descrever imagens ainda apresente inconsistências nesta fase.
Principais Recursos do ReALM
O ReALM se destaca por sua capacidade de compreender simultaneamente o conteúdo exibido na tela do usuário e as ações que estão sendo realizadas. O modelo classifica as informações em três categorias:
1. Entidades de Tela: Conteúdo atualmente visível na tela do usuário.
2. Entidades de Diálogo: Informações relacionadas a conversas em andamento, como os detalhes de contato de "Mãe" no comando "Chamar Mãe."
3. Entidades de Fundo: Entidades que não estão diretamente relacionadas ao conteúdo ou ações atuais da tela do usuário, como a reprodução de música ou um alarme iminente.
Se totalmente operacional, o ReALM tornaria a Siri significativamente mais inteligente e útil. A equipe de pesquisa realizou uma comparação de desempenho entre o ReALM e os modelos GPT-3.5 e GPT-4.0 da OpenAI, revelando insights notáveis:
“Testamos ambos os modelos da OpenAI, GPT-3.5 e GPT-4.0, fornecendo informações contextuais para prever várias entidades. O GPT-3.5 processa apenas entradas de texto, enquanto o GPT-4 pode entender dados de imagem, aumentando consideravelmente sua capacidade de identificar entidades de tela.”
Resultados Impressionantes do ReALM
O ReALM demonstrou progressos notáveis no reconhecimento de diferentes tipos de entidades. O menor modelo alcançou mais de 5% de melhoria na precisão do reconhecimento de entidades de tela em comparação com o sistema original. Quando comparado ao GPT-3.5 e GPT-4.0, nosso menor modelo apresentou desempenho equivalente ao GPT-4.0, enquanto os modelos maiores superaram claramente este último.
Uma das conclusões do estudo é que, apesar de ter significativamente menos parâmetros que o GPT-4, o desempenho do ReALM é competitivo, especialmente ao processar comandos do usuário em contextos específicos, tornando-se um sistema eficiente de reconhecimento de entidades no dispositivo.
Para a Apple, o desafio consiste em implantar essa tecnologia de forma eficaz nos dispositivos sem comprometer o desempenho. Com a aproximação da WWDC 2024, marcada para 10 de junho, a indústria aguarda ansiosamente a apresentação das novas inovações em IA no iOS 18 e outros sistemas futuros da Apple.