Entender las intenciones del usuario a través de interacciones con la interfaz de usuario (UI) representa un desafío considerable para el desarrollo de aplicaciones de IA intuitivas y efectivas.
En un estudio reciente, investigadores de Apple presentaron UI-JEPA, una arquitectura innovadora diseñada para minimizar las demandas computacionales del entendimiento de UI mientras ofrece un alto rendimiento. UI-JEPA facilita la comprensión de la UI de manera ligera y en el dispositivo, mejorando la capacidad de respuesta y la privacidad de las aplicaciones de asistentes de IA, en línea con la estrategia más amplia de Apple de potenciar las capacidades de IA en el dispositivo.
Los Desafíos del Entendimiento de UI
Derivar la intención del usuario de las interacciones de UI requiere analizar características multimodales, incluyendo imágenes y lenguaje natural, para captar las relaciones temporales dentro de las secuencias de UI. Los coautores Yicheng Fu, pasante de Investigación en Aprendizaje Automático en Apple, y Raviteja Anantha, Científico Principal de ML en Apple, afirman: “Aunque los avances en Modelos de Lenguaje Multimodal (MLLMs) como Anthropic Claude 3.5 Sonnet y OpenAI GPT-4 Turbo ofrecen oportunidades de personalización al incorporar contextos de usuario, estos modelos requieren recursos computacionales significativos y presentan una alta latencia, lo que los hace inadecuados para aplicaciones ligeras en el dispositivo donde la latencia baja y la privacidad son cruciales.” Por otro lado, los modelos ligeros existentes capaces de analizar la intención del usuario siguen siendo demasiado intensivos computacionalmente para su ejecución eficiente en dispositivos.
La Arquitectura JEPA
UI-JEPA se inspira en la Arquitectura Predictiva de Embedding Conjunto (JEPA), un método de aprendizaje auto-supervisado establecido por Yann LeCun, Científico Jefe de IA en Meta, en 2022. JEPA se centra en aprender representaciones semánticas predecidas a partir de secciones enmascaradas en imágenes o videos, enfocándose en aspectos clave de la escena en lugar de reconstruir cada detalle. Al reducir drásticamente la dimensionalidad del problema, JEPA permite que modelos más pequeños adquieran representaciones ricas. Además, como algoritmo auto-supervisado, puede entrenarse con grandes cantidades de datos no etiquetados, evitando así costosas anotaciones manuales. Meta ha introducido previamente I-JEPA y V-JEPA, adaptaciones dirigidas a imágenes y video, respectivamente. “A diferencia de los modelos generativos que buscan completar toda la información faltante, JEPA descarta eficientemente los datos irrelevantes”, explican Fu y Anantha. "Esto mejora la eficiencia en el entrenamiento y la muestra entre 1.5 y 6 veces en V-JEPA, lo cual es crítico dada la escasez de videos de UI etiquetados de alta calidad."
UI-JEPA: Una Nueva Frontera
Aprovechando las fortalezas de JEPA, UI-JEPA adapta la arquitectura para el entendimiento de UI, integrando dos componentes clave: un codificador de video transformer y un modelo de lenguaje solo de decodificación. El codificador de video transformer procesa videos de interacciones de UI, traduciéndolos en representaciones abstractas de características, mientras que el modelo de lenguaje usa estas incrustaciones de video para generar descripciones textuales de la intención del usuario. Utilizando Microsoft Phi-3, un modelo ligero con aproximadamente 3 mil millones de parámetros, UI-JEPA se destaca en aplicaciones en el dispositivo. Esta sinergia de un codificador basado en JEPA y un modelo de lenguaje ligero permite que UI-JEPA logre un rendimiento impresionante con significativamente menos parámetros y requisitos computacionales que los MLLMs de vanguardia.
Para promover la investigación en entendimiento de UI, el equipo introdujo dos conjuntos de datos multimodales y benchmarks, “Intent in the Wild” (IIW) y “Intent in the Tame” (IIT). IIW abarca secuencias abiertas de acciones de UI con intenciones ambiguas, mientras que IIT se centra en tareas más definidas, como configurar recordatorios. “Creemos que estos conjuntos de datos mejorarán el desarrollo de MLLMs más poderosos y compactos, así como mejores paradigmas de entrenamiento”, afirmaron los investigadores.
Evaluando UI-JEPA
La evaluación del rendimiento de UI-JEPA frente a otros codificadores de video y MLLMs como GPT-4 Turbo y Claude 3.5 Sonnet mostró que UI-JEPA sobresalió en escenarios de pocos ejemplos en los conjuntos de datos IIT y IIW. Alcanzó un rendimiento comparable a modelos más grandes mientras que su tamaño se limitó a solo 4.4 mil millones de parámetros. La incorporación de texto mediante la tecnología de reconocimiento óptico de caracteres (OCR) mejoró aún más su efectividad, aunque UI-JEPA enfrentó desafíos en configuraciones de cero disparos.
Los investigadores visualizan varias aplicaciones para UI-JEPA, entre ellas la creación de bucles de retroalimentación automatizados para agentes de IA, permitiendo el aprendizaje continuo de interacciones de usuarios sin intervención manual, lo que podría reducir significativamente los costos de anotación mientras se preserva la privacidad del usuario. “A medida que los agentes recopilan más datos a través de UI-JEPA, se vuelven cada vez más hábiles en sus respuestas”, notaron los autores. “Además, la capacidad de UI-JEPA para procesar contextos en pantalla en curso mejora las indicaciones para planificadores basados en LLM, optimizando la generación de planes matizados para consultas complejas o implícitas.”
Además, UI-JEPA podría integrarse en marcos diseñados para rastrear la intención del usuario a través de diversas aplicaciones y modalidades, actuando como un agente de percepción que recupera intenciones relevantes para generar llamadas API apropiadas durante las interacciones del usuario con asistentes digitales. “UI-JEPA mejora cualquier marco de agente de IA al alinearse más estrechamente con las preferencias del usuario y predecir acciones basadas en datos de actividad en pantalla,” explicaron Fu y Anantha. “Cuando se combina con datos temporales y geográficos, puede inferir la intención del usuario para una amplia gama de aplicaciones.” UI-JEPA se alinea bien con Apple Intelligence, un conjunto de herramientas de IA generativa ligeras que mejoran las capacidades inteligentes y productivas de los dispositivos Apple. Dada la compromiso de Apple con la privacidad, la eficiencia y la baja demanda de recursos de UI-JEPA pueden proporcionar una ventaja significativa sobre los modelos dependientes de la nube.