애플, UI-JEPA 모델을 통한 향상된 디바이스 내 사용자 의도 인식 추구

사용자 인터페이스(UI) 상호작용을 통한 사용자 의도 이해는 직관적이고 효율적인 AI 애플리케이션 개발에 있어 큰 도전 과제가 됩니다. 최근 Apple의 연구팀은 UI 이해의 컴퓨팅 요구 사항을 최소화하면서도 높은 성능을 제공하는 혁신적인 아키텍처인 UI-JEPA를 소개했습니다. UI-JEPA는 경량의 디바이스 내 UI 이해를 가능하게 하여 AI 비서 애플리케이션의 반응성과 개인정보 보호를 향상시킵니다. 이는 Apple의 디바이스 내 AI 기능을 발전시키려는 광범위한 전략과 일치합니다.

UI 이해의 도전

UI 상호작용에서 사용자 의도를 파악하기 위해서는 이미지와 자연어를 포함한 여러 가지 특징을 분석하고, UI 시퀀스 내의 시간적 관계를 이해해야 합니다. Apple의 머신러닝 연구원 인턴인 Yicheng Fu와 Apple의 수석 ML 과학자 Raviteja Anantha는 “멀티모달 대형 언어 모델(MLLM)인 Anthropic Claude 3.5 Sonnet과 OpenAI GPT-4 Turbo의 발전은 사용자 맥락을 포함해 개인화를 위한 기회를 제공하지만, 이러한 모델은 막대한 컴퓨팅 자원을 소모하고 높은 지연 시간을 유발합니다. 따라서 낮은 지연 시간과 개인정보 보호가 중요한 경량 디바이스용 애플리케이션에는 적합하지 않습니다.”라고 설명합니다. 반면, 사용자 의도를 분석할 수 있는 기존의 경량 모델은 디바이스 내에서 효율적으로 실행할 만큼 충분히 부하를 줄이지 못합니다.

JEPA 아키텍처

UI-JEPA는 2022년에 Meta AI의 수석 과학자인 Yann LeCun이 개발한 Joint Embedding Predictive Architecture(JEPA)에서 영감을 받았습니다. JEPA는 이미지나 비디오의 마스크 처리된 부분을 예측하여 의미론적 표현을 학습하는 데 초점을 맞추며, 모든 세부 사항을 재구성하는 대신 중요한 장면 요소에 집중합니다. 문제의 차원을 대폭 줄임으로써, JEPA는 더 작은 모델이 풍부한 표현을 습득할 수 있도록 합니다. 또한, 자기 지도 학습 알고리즘으로 가공되지 않은 대량의 데이터를 활용하여 비싼 수작업 주석 작업을 피할 수 있습니다. Meta는 이전에 이미지와 비디오를 목표로 하는 I-JEPA와 V-JEPA를 소개했습니다. Fu와 Anantha는 “모든 누락된 정보를 채우려는 생성 모델과 달리, JEPA는 불필요한 데이터를 효율적으로 배제합니다.”라고 설명하며, “이로 인해 V-JEPA에서는 훈련 및 샘플 효율성이 1.5배에서 6배 향상됩니다. 이는 양질의 레이블이 붙은 UI 비디오의 부족을 고려할 때 매우 중요합니다.”라고 덧붙입니다.

UI-JEPA: 새로운 경지

JEPA의 강점을 바탕으로, UI-JEPA는 UI 이해를 위한 아키텍처로서 비디오 변환기 인코더와 디코더 전용 언어 모델의 두 가지 핵심 구성 요소를 통합합니다. 비디오 변환기 인코더는 UI 상호작용의 비디오를 처리하여 추상적인 특징 표현으로 변환하며, 언어 모델은 이러한 비디오 임베딩을 활용해 사용자 의도에 대한 텍스트 설명을 생성합니다. 약 30억 개의 매개변수를 가진 경량 모델 Microsoft Phi-3을 이용하여 UI-JEPA는 디바이스 내 애플리케이션에서 탁월한 성능을 발휘합니다.

JEPA 기반 인코더와 경량 언어 모델의 시너지로 UI-JEPA는 최첨단 MLLM보다 훨씬 적은 매개변수와 컴퓨팅 요구로 인상적인 성능을 달성합니다. 연구팀은 UI 이해 연구를 촉진하기 위해 "Intent in the Wild" (IIW)와 "Intent in the Tame" (IIT)이라는 두 개의 멀티모달 데이터셋과 벤치마크를 도입했습니다. IIW는 모호한 의도를 가지는 UI 행동의 개방형 시퀀스를 포함하며, IIT는 알림 설정과 같이 더 정의된 작업에 중점을 둡니다. 연구자들은 “이 데이터셋이 더 강력하고 컴팩트한 MLLM의 개발과 더 나은 학습 패러다임을 향상시킬 것이라고 믿습니다.”라고 밝혔습니다.

UI-JEPA 평가

UI-JEPA의 성능을 다른 비디오 인코더 및 GPT-4 Turbo, Claude 3.5 Sonnet과 같은 MLLM과 비교한 결과, UI-JEPA는 IIT와 IIW 데이터셋 모두에서 소수 촬영 시나리오에서 뛰어난 성능을 보였습니다. 44억 개의 매개변수로 큰 폐쇄형 모델과 유사한 성능을 달성했으나, 훨씬 더 경량화되었습니다. 광학 문자 인식(OCR)을 통한 텍스트 통합은 효과를 더욱 향상시켰으나, UI-JEPA는 제로샷 설정에서는 도전 과제를 안고 있습니다.

연구자들은 UI-JEPA의 몇 가지 응용 프로그램을 구상하고 있으며, 그 중 하나는 AI 에이전트를 위한 자동 피드백 루프를 설정하는 것입니다. 이는 수동 입력 없이도 사용자 상호작용에서 지속적인 학습을 가능하게 하여 주석 비용을 크게 줄이고 개인정보를 보호할 수 있습니다. 저자들은 “에이전트가 UI-JEPA를 통해 더 많은 데이터를 수집할수록 반응에 더욱 능숙해집니다.”라고 언급했습니다. “또한, UI-JEPA는 지속적인 화면 맥락을 처리할 수 있어, LLM 기반의 계획자에게 보다 정교한 계획 생성을 개선하는 데 도움을 줍니다.”

추가로, UI-JEPA는 다양한 애플리케이션과 모드에서 사용자 의도를 추적하는 프레임워크에 통합될 수 있습니다. 이 역할에서 UI-JEPA는 사용자가 디지털 비서와 상호작용할 때 적절한 API 호출을 생성하기 위해 관련 사용자 의도를 검색하는 인식 에이전트로 작용할 수 있습니다. Fu와 Anantha는 “UI-JEPA는 사용자 선호에 더 밀접하게 맞춰지며, 화면 활동 데이터를 기반으로 행동을 예측함으로써 모든 AI 에이전트 프레임워크를 향상시킵니다.”라고 설명합니다. “시간 및 지리적 데이터와 결합되면 다양한 애플리케이션에 대한 사용자 의도를 유추할 수 있습니다.” UI-JEPA는 Apple Intelligence와 잘 연동되며, 이는 Apple 기기의 스마트하고 생산적인 기능을 향상시키는 경량 생성 AI 도구의 모음입니다. Apple의 개인정보 보호에 대한 약속을 감안할 때, UI-JEPA의 효율성과 낮은 자원 요구는 클라우드 의존 모델에 비해 상당한 이점을 제공할 수 있습니다.

Most people like

Find AI tools in YBX