A Apple Busca Aprimorar o Reconhecimento de Intenção do Usuário no Dispositivo com Modelos UI-JEPA

Home Notícias de IA A Apple Busca Aprimorar o Reconhecimento de Intenção do Usuário no Dispositivo com Modelos UI-JEPA

Updated on setembro 13 2024

Entender as intenções dos usuários através das interações com a interface do usuário (UI) representa um desafio significativo para o desenvolvimento de aplicações de IA intuitivas e eficazes. Em um estudo recente, pesquisadores da Apple apresentaram o UI-JEPA, uma arquitetura inovadora projetada para minimizar as demandas computacionais do entendimento de UI, ao mesmo tempo em que oferece alto desempenho. O UI-JEPA facilita a compreensão leve e local da UI, melhorando a responsividade e a privacidade das aplicações de assistentes de IA, alinhando-se à estratégia mais ampla da Apple de aprimorar as capacidades de IA em dispositivo.

Os Desafios do Entendimento de UI

Derivar a intenção do usuário a partir das interações com a UI exige a análise de características multimodais, incluindo imagens e linguagem natural, para compreender as relações temporais dentro das sequências de UI. Os co-autores Yicheng Fu, um estagiário em Pesquisa em Aprendizagem de Máquina na Apple, e Raviteja Anantha, Cientista Principal de ML na Apple, afirmam: "Embora os avanços em Modelos de Linguagem Multimodal (MLLMs) como Anthropic Claude 3.5 Sonnet e OpenAI GPT-4 Turbo ofereçam oportunidades para personalização ao incorporar contextos do usuário, esses modelos exigem recursos computacionais significativos e introduzem alta latência. Isso os torna inadequados para aplicações leves em dispositivos, onde baixa latência e privacidade são cruciais."

Por outro lado, os modelos leves existentes que conseguem analisar a intenção do usuário ainda são computacionalmente intensivos demais para uma execução eficiente em dispositivos.

A Arquitetura JEPA

O UI-JEPA é inspirado na Arquitetura Preditiva de Embedding Conjunto (JEPA), um método de aprendizado auto-supervisionado estabelecido pelo Cientista Chefe de IA da Meta, Yann LeCun, em 2022. O JEPA foca em aprender representações semânticas prevendo seções mascaradas em imagens ou vídeos, concentrando-se nos aspectos vitais das cenas em vez de reconstruir todos os detalhes. Ao reduzir drasticamente a dimensionalidade do problema, o JEPA permite que modelos menores adquiram representações ricas. Além disso, como um algoritmo auto-supervisionado, pode ser treinado com grandes quantidades de dados não rotulados, evitando a necessidade de anotações manuais dispendiosas. A Meta já introduziu o I-JEPA e o V-JEPA, adaptações voltadas para imagens e vídeos, respectivamente.

"Diferentemente dos modelos generativos que tentam preencher todas as informações ausentes, o JEPA descarta eficientemente dados irrelevantes," explicam Fu e Anantha. "Isso melhora a eficiência do treinamento e da amostragem de 1,5 a 6 vezes no V-JEPA, o que é crítico devido à escassez de vídeos de UI rotulados de alta qualidade."

UI-JEPA: Uma Nova Fronteira

Aproveitando os pontos fortes do JEPA, o UI-JEPA adapta a arquitetura para o entendimento da UI, integrando duas componentes principais: um codificador de vídeo transformer e um modelo de linguagem somente de decodificação. O codificador de vídeo transforma vídeos de interações com a UI em representações abstratas de características, enquanto o modelo de linguagem utiliza essas embeddings de vídeo para gerar descrições textuais da intenção do usuário. Com o Microsoft Phi-3, um modelo leve com aproximadamente 3 bilhões de parâmetros, o UI-JEPA se destaca em aplicações em dispositivo.

Essa sinergia entre um codificador baseado em JEPA e um modelo de linguagem leve permite que o UI-JEPA alcance um desempenho impressionante com significativamente menos parâmetros e requisitos computacionais do que os MLLMs de ponta. Para promover a pesquisa em entendimento de UI, a equipe introduziu dois conjuntos de dados multimodais e benchmarks: "Intent in the Wild" (IIW) e "Intent in the Tame" (IIT). O IIW abrange sequências abertas de ações de UI com intenções ambíguas, enquanto o IIT foca em tarefas mais definidas, como configurar lembretes. "Acreditamos que esses conjuntos de dados melhorarão o desenvolvimento de MLLMs mais poderosos e compactos e melhores paradigmas de treinamento," afirmam os pesquisadores.

Avaliação do UI-JEPA

A avaliação de desempenho do UI-JEPA em comparação com outros codificadores de vídeo e MLLMs como GPT-4 Turbo e Claude 3.5 Sonnet mostrou que o UI-JEPA se destacou em cenários com poucos exemplos nos conjuntos de dados IIT e IIW. Ele alcançou desempenho comparável a modelos fechados maiores, mesmo sendo significativamente mais leve, com apenas 4,4 bilhões de parâmetros. A inclusão de texto via reconhecimento óptico de caracteres (OCR) melhorou ainda mais sua eficácia, embora o UI-JEPA tenha enfrentado desafios em ambientes sem exemplos.

Os pesquisadores visualizam diversas aplicações para o UI-JEPA, sendo uma delas o estabelecimento de ciclos de feedback automatizados para agentes de IA, permitindo aprendizado contínuo a partir das interações dos usuários sem a necessidade de input manual. Esse recurso poderia reduzir consideravelmente os custos de anotação, preservando a privacidade do usuário. "À medida que os agentes coletam mais dados através do UI-JEPA, eles se tornam cada vez mais habilidosos em suas respostas," observaram os autores. "Além disso, a capacidade do UI-JEPA de processar contextos em tempo real melhora as solicitações para planejadores baseados em LLM, aprimorando a geração de planos detalhados para consultas complexas ou implícitas."

Além disso, o UI-JEPA poderia ser integrado a estruturas destinadas a rastrear a intenção do usuário em diversas aplicações e modalidades. Nessa função, pode atuar como um agente de percepção, recuperando intenções relevantes dos usuários para gerar chamadas de API apropriadas durante interações com assistentes digitais. "O UI-JEPA aprimora qualquer estrutura de agente de IA, alinhando-se mais de perto com as preferências do usuário e prevendo ações com base nos dados de atividade na tela," explicaram Fu e Anantha. "Quando combinado com dados temporais e geográficos, pode inferir a intenção do usuário para uma ampla gama de aplicações." O UI-JEPA se alinha bem com a Apple Intelligence, um conjunto de ferramentas leves de IA generativa que potencializam as capacidades inteligentes e produtivas dos dispositivos da Apple. Dada a ênfase da Apple na privacidade, a eficiência e as baixas demandas de recursos do UI-JEPA podem oferecer uma vantagem significativa sobre modelos dependentes de nuvem.

Crescimento dos Ataques em Kubernetes: Como a Detecção de Ameaças em Tempo Real Pode Proteger as Empresas

Entendendo os Novos Modelos o1-Preview e o1-Mini da OpenAI: Principais Insights para Desenvolvedores

Most people like

Yomu

35.1K

Transforme sua escrita com nossa ferramenta de edição impulsionada por IA, projetada especificamente para estudantes e acadêmicos. Experimente melhorias contínuas em seus artigos acadêmicos, ensaios e projetos de pesquisa, aumentando a clareza e o envolvimento. Descubra como nossos algoritmos avançados podem ajudá-lo a articular suas ideias de forma mais eficaz e elevar sua escrita a um novo patamar.

Editor de escrita aprimorado por IA Essay Writer

EarnBetter

623.8K

Desbloqueie seu potencial profissional com nosso assistente de busca de empregos gratuito. Esta ferramenta inovadora otimiza sua procura por vagas, oferecendo recomendações personalizadas, sugestões de currículo adaptadas e dicas para entrevistas. Se você está buscando seu primeiro emprego ou fazendo uma transição de carreira, nosso assistente de IA foi projetado para aprimorar sua experiência de busca e conectar você a oportunidades que se alinham às suas habilidades e aspirações. Comece a potencializar sua busca de emprego hoje!

Assistente de busca de emprego com IA Resume Builder

Targum Video

14.9K

Traduza vídeos para qualquer idioma com precisão perfeita de forma simples.

tradução de vídeo Translate

vidyo.ai

572K

Vidyo.ai transforma podcasts e vídeos em clipes envolventes e compartilháveis, adaptados para plataformas de mídia social. Maximize o alcance e o impacto do seu conteúdo criando, de forma simples, destaques curtos que cativam sua audiência.

Edição de vídeo com IA AI Repurpose Assistant

Find AI tools in YBX