Pesquisadores da Apple desenvolveram um sistema inovador de IA chamado ReALM (Resolução de Referência como Modelagem de Linguagem) que aprimora a interpretação de referências vagas e o contexto do diálogo por assistentes digitais, resultando em interações mais naturais. Este avanço inovador foi recentemente anunciado.
ReALM utiliza grandes modelos de linguagem para transformar tarefas complexas de resolução de referência—como a compreensão de elementos visuais na tela—em desafios de modelagem de linguagem. Essa abordagem supera significativamente os métodos tradicionais, segundo a equipe de pesquisa da Apple, que observou: "Entender o contexto e as referências é crucial para assistentes de conversação. Permitir que os usuários consultem conteúdos na tela é um passo fundamental para alcançar uma experiência verdadeiramente sem mãos."
Uma das principais inovações do ReALM na resolução de referências é sua capacidade de reposicionar entidades na tela usando a análise de localização, gerando uma representação textual que mantém o layout visual. Testes indicaram que esse método, quando combinado com modelos de linguagem especialmente ajustados para a resolução de referências, superou o desempenho do GPT-4. Os pesquisadores comentaram: "Nosso sistema melhorou drasticamente o desempenho em vários tipos de referências, alcançando um ganho absoluto superior a 5% em tarefas que envolviam referências na tela com o modelo menor, enquanto o modelo maior superou significativamente o GPT-4."
Este estudo destaca o potencial dos modelos de linguagem especializados no enfrentamento de tarefas de resolução de referência. Em cenários práticos, a implementação de modelos massivos de ponta a ponta pode ser impraticável devido a limitações de latência ou computação. As descobertas mostram o compromisso contínuo da Apple em aprimorar as capacidades conversacionais e a compreensão contextual do Siri e de outros produtos.
Entretanto, os pesquisadores alertaram que a análise automática da tela tem suas limitações. Abordar referências visuais mais complexas—como distinguir entre múltiplas imagens—pode exigir a integração de visão computacional e tecnologias multimodais.
A Apple tem avançado discretamente no campo da IA, embora ainda esteja atrás de concorrentes nesse mercado em rápida evolução. Os laboratórios de pesquisa da empresa estão constantemente inovando em modelos multimodais, ferramentas impulsionadas por IA e tecnologias de IA especializadas de alto desempenho, refletindo sua ambição no setor de inteligência artificial.
A expectativa cresce para a próxima Conferência Mundial de Desenvolvedores em junho, onde a Apple deve revelar novos frameworks de modelos de linguagem, um chatbot "Apple GPT" e outras funcionalidades de IA em seu ecossistema, buscando se adaptar rapidamente às dinâmicas do mercado.