Pesquisadores da Apple revelaram um avançado sistema de inteligência artificial que melhora a compreensão de assistentes de voz sobre referências ambíguas e o contexto ao seu redor, facilitando interações mais naturais. Essa inovação, detalhada em um artigo publicado na sexta-feira, é chamada de ReALM (Reference Resolution As Language Modeling).
O ReALM utiliza grandes modelos de linguagem para transformar a complexa tarefa de resolução de referências — incluindo a identificação de elementos visuais na tela — em um desafio de modelagem de linguagem. Essa mudança resulta em melhorias significativas de desempenho em comparação com os métodos atuais.
"Compreender o contexto, incluindo referências, é essencial para um assistente conversacional", afirmou a equipe de pesquisa. "Permitir que os usuários consultem o conteúdo visível na tela é vital para alcançar uma experiência verdadeiramente hands-free com assistentes de voz."
Aprimorando Assistentes Conversacionais
Um diferencial do ReALM é sua capacidade de reconstruir visuais da tela usando entidades analisadas e suas posições, gerando uma representação textual que se alinha ao layout visual. A equipe demonstrou que esse método, combinado com o ajuste fino especializado de modelos de linguagem para a resolução de referências, supera o desempenho do GPT-4.
O sistema de IA da Apple, ReALM, pode interpretar efetivamente referências a itens na tela, como o anúncio “260 Sample Sale” em uma maquete, promovendo interações mais ricas com assistentes de voz. "Conseguimos melhorias significativas sobre sistemas existentes para lidar com diversos tipos de referência, com nosso modelo menor alcançando mais de 5% de ganho na precisão de referências na tela", notaram os pesquisadores. "Nossos modelos maiores superam consideravelmente o GPT-4."
Aplicações Práticas e Limitações
Esta pesquisa destaca o potencial dos modelos de linguagem focados para realizar tarefas como resolução de referências em ambientes de produção, onde modelos end-to-end grandes podem não ser práticos devido a latência ou restrições computacionais. Ao compartilhar esses achados, a Apple reafirma seu compromisso em aprimorar as capacidades conversacionais e de contextualização do Siri e de outros produtos.
Contudo, a equipe reconhece os desafios da análise automática de tela. Abordar referências visuais complexas — como diferenciar entre múltiplas imagens — pode exigir a integração de técnicas de visão computacional e multimodais.
As Ambições em IA da Apple
A Apple está avançando rapidamente na pesquisa em inteligência artificial, embora atualmente esteja atrás de concorrentes na corrida pela dominância em IA. Seus recentes avanços vão desde modelos multimodais que integram dados visuais e linguísticos até ferramentas de animação impulsionadas por IA.
Apesar de ser conhecida por uma abordagem cautelosa, a Apple enfrenta uma concorrência formidável de Google, Microsoft, Amazon e OpenAI, todos os quais têm integrado agressivamente IA generativa em suas ofertas.
À medida que o cenário da IA evolui rapidamente, a Apple se encontra em uma posição desafiadora. A expectativa cresce para a próxima Conferência Mundial de Desenvolvedores, onde a empresa deve apresentar uma nova estrutura de grandes modelos de linguagem, referida como “Apple GPT”, juntamente com recursos adicionais alimentados por IA em sua linha de produtos.
O CEO Tim Cook sugeriu durante uma chamada de lucros que detalhes das iniciativas de IA da Apple serão compartilhados ainda este ano. Embora a estratégia da empresa permaneça discreta, o escopo de seus esforços em IA está evidentemente se expandindo.
À medida que a competição pela liderança em IA se intensifica, a entrada tardia da Apple a posicionou sob pressão competitiva. No entanto, seus vastos recursos, lealdade à marca, engenharia superior e portfólio de produtos integrados oferecem uma vantagem potencial.
Uma nova era de computação inteligente está se aproximando. Em junho, veremos se a Apple se preparou o suficiente para influenciar essa transformação.