Apple стремится улучшить распознавание намерений пользователей на устройствах с помощью моделей UI-JEPA.

Home Новости ИИ Apple стремится улучшить распознавание намерений пользователей на устройствах с помощью моделей UI-JEPA.

Updated on сентябрь 13 2024

Понимание намерений пользователя через взаимодействие с пользовательским интерфейсом (UI) представляет собой серьезную задачу при разработке интуитивно понятных и эффективных AI-приложений. В недавнем исследовании группа ученых из Apple представила UI-JEPA, инновационную архитектуру, созданную для минимизации вычислительных требований к пониманию UI при высокой производительности. UI-JEPA обеспечивает легкое восприятие интерфейса на устройстве, повышая отзывчивость и конфиденциальность приложений AI-ассистентов, что соответствует более широкой стратегии Apple по развитию возможностей AI на устройствах.

Проблемы понимания UI

Для определения намерений пользователя на основе взаимодействий с UI требуется анализ кросс-модальных признаков, включая изображения и естественный язык, чтобы уловить временные отношения внутри последовательностей UI. Соавторы Яйчэн Фу, стажёр-исследователь в области машинного обучения в Apple, и Равитея Ананта, ведущий ученый по машинному обучению в Apple, отмечают: «Хотя достижения в области многомодальных больших языковых моделей (MLLM), таких как Anthropic Claude 3.5 Sonnet и OpenAI GPT-4 Turbo, открывают возможности для персонализации, используя контекст пользователя, эти модели требуют значительных вычислительных ресурсов и вводят высокую задержку, что делает их непригодными для легких приложений на устройствах, где критически важны низкая задержка и конфиденциальность». В то же время существующие легкие модели, способные анализировать намерения пользователей, остаются слишком вычислительно интенсивными для эффективного выполнения на устройствах.

Архитектура JEPA

UI-JEPA вдохновлена Архитектурой Предсказательной Совместной Эмбединга (JEPA), методом самообучения, предложенным Главным ученым Meta AI Янном ЛеКуном в 2022 году. JEPA сосредоточена на обучении семантическим представлениям путем предсказания замаскированных фрагментов в изображениях или видео, акцентируя внимание на ключевых аспектах сцены, а не на воссоздании каждой детали. Снижая размерность задачи, JEPA позволяет меньшим моделям усваивать богатые представления. Более того, как самообучающийся алгоритм, он может обучаться на огромных объемах неразмеченных данных, избегая дорогой ручной аннотации. Ранее Meta представила I-JEPA и V-JEPA, адаптации для изображений и видео соответственно. «В отличие от генеративных моделей, которые стремятся заполнить все отсутствующие данные, JEPA эффективно отбрасывает избыточные сведения», объясняют Фу и Ананта. «Это повышает эффективность обучения и доступных примеров в V-JEPA в 1,5-6 раз, что критично с учетом нехватки качественных размеченных видео UI».

UI-JEPA: Новая граница

Опираясь на сильные стороны JEPA, UI-JEPA адаптировала архитектуру для понимания UI, интегрируя два ключевых компонента: видеодекодер и языковую модель только декодера. Видеодекодер обрабатывает видео взаимодействий с UI, преобразуя их в абстрактные представления признаков, в то время как языковая модель использует эти эмбеддинги видео для генерации текстовых описаний намерений пользователя. Используя Microsoft Phi-3, легкую модель с примерно 3 миллиардами параметров, UI-JEPA демонстрирует выдающуюся производительность в приложениях на устройствах. Это сочетание декодера на основе JEPA и легкой языковой модели позволяет UI-JEPA достигать впечатляющей производительности с значительно меньшим количеством параметров и вычислительных требований, чем современные MLLM.

Для продвижения исследований по пониманию UI команда представила два многомодальных набора данных и стандарты, “Intent in the Wild” (IIW) и “Intent in the Tame” (IIT). IIW включает открытые последовательности действий UI с неоднозначными намерениями, в то время как IIT сосредоточен на более определенных задачах, таких как установка напоминаний. «Мы считаем, что эти наборы данных улучшат разработку более мощных и компактных MLLM и лучшие парадигмы обучения», утверждают исследователи.

Оценка UI-JEPA

Оценка производительности UI-JEPA по сравнению с другими видеодекодерами и MLLM, такими как GPT-4 Turbo и Claude 3.5 Sonnet, показала, что UI-JEPA успешно справляется с задачами в условиях немногочисленных примеров как в IIT, так и в IIW, достигая сопоставимой производительности с более крупными закрытыми моделями при значительно меньших размерах — всего 4,4 миллиарда параметров. Интеграция текста через оптическое распознавание символов (OCR) дополнительно повысила его эффективность, хотя UI-JEPA столкнулся с проблемами в условиях нулевого примера.

Исследователи предвидят несколько приложений для UI-JEPA, одной из которых является создание автоматических обратных связей для AI-агентов, позволяющих непрерывно обучаться на основе взаимодействий с пользователем без ручного ввода. Эта функция может значительно сократить затраты на аннотацию, сохраняя конфиденциальность пользователя. «По мере того как агенты собирают больше данных через UI-JEPA, они становятся все более компетентными в своих ответах», отмечают авторы. «Более того, способность UI-JEPA обрабатывать текущие контексты на экране улучшает запросы для LLM-планировщиков, способствуя генерации более точных планов для комплексных или неявных запросов».

Кроме того, UI-JEPA может быть интегрирована в структуры, предназначенные для отслеживания намерений пользователей в различных приложениях и модальностях. В этой роли она может стать агентом восприятия, извлекая соответствующие намерения пользователей для генерации соответствующих вызовов API во время взаимодействия с цифровыми ассистентами. «UI-JEPA улучшает любую структуру AI-агента за счет более точного соответствия с предпочтениями пользователя и предсказания действий на основе данных с экрана», объясняют Фу и Ананта. «В сочетании с временными и географическими данными она может выводить намерения пользователя для широкого спектра приложений». UI-JEPA отлично сочетается с Apple Intelligence, набором легких генеративных инструментов AI, повышающих умные и продуктивные возможности устройств Apple. Учитывая приверженность Apple конфиденциальности, эффективность и низкие требования к ресурсам UI-JEPA могут предоставить значительное преимущество перед моделями, зависящими от облака.

Атаки на Kubernetes растут: как обнаружение угроз в реальном времени может защитить предприятия

Понимание новых моделей OpenAI o1-Preview и o1-Mini: ключевые инсайты для разработчиков

Most people like

banger.show

80.2K

banger.show предоставляет музыкантам возможность создавать впечатляющие видеовизуализаторы, усиливающие привлекательность их песен и помогающие им выделиться на платформах социальных сетей. Идеально подходит для продвижения неопубликованных треков, наш сервис увеличивает видимость вашей музыки и привлекает потенциальных слушателей.

аудиовизуализатор AI Music Generator

ScrumDesk

12K

Оптимизированный инструмент управления проектами Agile для высокоэффективных Scrum-команд.

Агил Other

Prompt Genie

70.7K

Поднимите свой опыт работы с ChatGPT с помощью Prompt Genie, инструмента на базе ИИ, созданного для улучшения ваших запросов и получения выдающихся результатов. Если вы хотите уточнить свои вопросы или сгенерировать более креативные ответы, Prompt Genie поможет вам раскрыть весь потенциал ChatGPT для достижения оптимальной производительности.

Генератор подсказок AI Content Generator

PromptWise.ai

48.9K

Повышайте свой опыт работы с ChatGPT с помощью тщательно продуманных подсказок. Откройте полный потенциал искусственного интеллекта, используя тщательно подобранные вводные данные, которые увеличивают креативность и вовлеченность.

ИИ AI Content Generator

Find AI tools in YBX