Apple стремится улучшить распознавание намерений пользователей на устройствах с помощью моделей UI-JEPA.

Понимание намерений пользователя через взаимодействие с пользовательским интерфейсом (UI) представляет собой серьезную задачу при разработке интуитивно понятных и эффективных AI-приложений. В недавнем исследовании группа ученых из Apple представила UI-JEPA, инновационную архитектуру, созданную для минимизации вычислительных требований к пониманию UI при высокой производительности. UI-JEPA обеспечивает легкое восприятие интерфейса на устройстве, повышая отзывчивость и конфиденциальность приложений AI-ассистентов, что соответствует более широкой стратегии Apple по развитию возможностей AI на устройствах.

Проблемы понимания UI

Для определения намерений пользователя на основе взаимодействий с UI требуется анализ кросс-модальных признаков, включая изображения и естественный язык, чтобы уловить временные отношения внутри последовательностей UI. Соавторы Яйчэн Фу, стажёр-исследователь в области машинного обучения в Apple, и Равитея Ананта, ведущий ученый по машинному обучению в Apple, отмечают: «Хотя достижения в области многомодальных больших языковых моделей (MLLM), таких как Anthropic Claude 3.5 Sonnet и OpenAI GPT-4 Turbo, открывают возможности для персонализации, используя контекст пользователя, эти модели требуют значительных вычислительных ресурсов и вводят высокую задержку, что делает их непригодными для легких приложений на устройствах, где критически важны низкая задержка и конфиденциальность». В то же время существующие легкие модели, способные анализировать намерения пользователей, остаются слишком вычислительно интенсивными для эффективного выполнения на устройствах.

Архитектура JEPA

UI-JEPA вдохновлена Архитектурой Предсказательной Совместной Эмбединга (JEPA), методом самообучения, предложенным Главным ученым Meta AI Янном ЛеКуном в 2022 году. JEPA сосредоточена на обучении семантическим представлениям путем предсказания замаскированных фрагментов в изображениях или видео, акцентируя внимание на ключевых аспектах сцены, а не на воссоздании каждой детали. Снижая размерность задачи, JEPA позволяет меньшим моделям усваивать богатые представления. Более того, как самообучающийся алгоритм, он может обучаться на огромных объемах неразмеченных данных, избегая дорогой ручной аннотации. Ранее Meta представила I-JEPA и V-JEPA, адаптации для изображений и видео соответственно. «В отличие от генеративных моделей, которые стремятся заполнить все отсутствующие данные, JEPA эффективно отбрасывает избыточные сведения», объясняют Фу и Ананта. «Это повышает эффективность обучения и доступных примеров в V-JEPA в 1,5-6 раз, что критично с учетом нехватки качественных размеченных видео UI».

UI-JEPA: Новая граница

Опираясь на сильные стороны JEPA, UI-JEPA адаптировала архитектуру для понимания UI, интегрируя два ключевых компонента: видеодекодер и языковую модель только декодера. Видеодекодер обрабатывает видео взаимодействий с UI, преобразуя их в абстрактные представления признаков, в то время как языковая модель использует эти эмбеддинги видео для генерации текстовых описаний намерений пользователя. Используя Microsoft Phi-3, легкую модель с примерно 3 миллиардами параметров, UI-JEPA демонстрирует выдающуюся производительность в приложениях на устройствах. Это сочетание декодера на основе JEPA и легкой языковой модели позволяет UI-JEPA достигать впечатляющей производительности с значительно меньшим количеством параметров и вычислительных требований, чем современные MLLM.

Для продвижения исследований по пониманию UI команда представила два многомодальных набора данных и стандарты, “Intent in the Wild” (IIW) и “Intent in the Tame” (IIT). IIW включает открытые последовательности действий UI с неоднозначными намерениями, в то время как IIT сосредоточен на более определенных задачах, таких как установка напоминаний. «Мы считаем, что эти наборы данных улучшат разработку более мощных и компактных MLLM и лучшие парадигмы обучения», утверждают исследователи.

Оценка UI-JEPA

Оценка производительности UI-JEPA по сравнению с другими видеодекодерами и MLLM, такими как GPT-4 Turbo и Claude 3.5 Sonnet, показала, что UI-JEPA успешно справляется с задачами в условиях немногочисленных примеров как в IIT, так и в IIW, достигая сопоставимой производительности с более крупными закрытыми моделями при значительно меньших размерах — всего 4,4 миллиарда параметров. Интеграция текста через оптическое распознавание символов (OCR) дополнительно повысила его эффективность, хотя UI-JEPA столкнулся с проблемами в условиях нулевого примера.

Исследователи предвидят несколько приложений для UI-JEPA, одной из которых является создание автоматических обратных связей для AI-агентов, позволяющих непрерывно обучаться на основе взаимодействий с пользователем без ручного ввода. Эта функция может значительно сократить затраты на аннотацию, сохраняя конфиденциальность пользователя. «По мере того как агенты собирают больше данных через UI-JEPA, они становятся все более компетентными в своих ответах», отмечают авторы. «Более того, способность UI-JEPA обрабатывать текущие контексты на экране улучшает запросы для LLM-планировщиков, способствуя генерации более точных планов для комплексных или неявных запросов».

Кроме того, UI-JEPA может быть интегрирована в структуры, предназначенные для отслеживания намерений пользователей в различных приложениях и модальностях. В этой роли она может стать агентом восприятия, извлекая соответствующие намерения пользователей для генерации соответствующих вызовов API во время взаимодействия с цифровыми ассистентами. «UI-JEPA улучшает любую структуру AI-агента за счет более точного соответствия с предпочтениями пользователя и предсказания действий на основе данных с экрана», объясняют Фу и Ананта. «В сочетании с временными и географическими данными она может выводить намерения пользователя для широкого спектра приложений». UI-JEPA отлично сочетается с Apple Intelligence, набором легких генеративных инструментов AI, повышающих умные и продуктивные возможности устройств Apple. Учитывая приверженность Apple конфиденциальности, эффективность и низкие требования к ресурсам UI-JEPA могут предоставить значительное преимущество перед моделями, зависящими от облака.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles