Pesquisadores da Apple desenvolveram um sistema de IA chamado ReALM (Resolução de Referência como Modelagem de Linguagem) com o objetivo de aprimorar significativamente a capacidade dos assistentes de voz em compreender e responder a comandos.
No seu mais recente artigo de pesquisa, a Apple descreve como o ReALM utiliza grandes modelos de linguagem para enfrentar os desafios da resolução de referência. Este sistema se destaca na interpretação de referências vagas a entidades na tela e na compreensão do diálogo em contexto, tornando as interações com dispositivos mais intuitivas e naturais.
A resolução de referência é um aspecto crucial da compreensão da linguagem natural, permitindo que os usuários utilizem pronomes e referências indiretas nas conversas sem gerar confusão. No entanto, isso tem sido um desafio significativo para assistentes digitais devido à complexidade de processar diversos indícios verbais e informações visuais. O ReALM busca simplificar esse processo intricado em uma tarefa básica de modelagem de linguagem, permitindo uma melhor compreensão das referências a elementos visuais na tela durante as conversas.
O ReALM reconstrói o layout visual da tela por meio de uma representação textual, analisando as entidades na tela e suas localizações para gerar um formato textual que reflete o conteúdo e a estrutura da tela. Os pesquisadores da Apple descobriram que modelos de linguagem especialmente ajustados apresentaram desempenho significativamente superior em tarefas de resolução de referência em comparação com métodos tradicionais, incluindo o GPT-4 da OpenAI.
Esse avanço permite que os usuários interajam de forma mais eficiente com assistentes digitais, com base no conteúdo exibido nas suas telas, eliminando a necessidade de descrições precisas e detalhadas. Isso abre um maior potencial para aplicações de assistentes de voz, como ajudar motoristas com informações de navegação enquanto dirigem ou oferecer interações indiretas mais simples e precisas para usuários com deficiências.
Recentemente, a Apple lançou vários estudos relacionados à inteligência artificial, notavelmente um método de treinamento de modelo de linguagem de grande escala para integrar de forma fluida informações textuais e visuais, publicado no mês passado. A expectativa está crescendo para a próxima conferência WWDC em junho, onde a Apple deverá revelar uma gama de novos recursos de IA.