애플의 ReALM 모델, Siri의 지능을 향상시키다
4월 2일, 애플이 Siri의 기능을 크게 향상시키기 위해 새로운 인공지능 모델인 ReALM을 개발하고 있다는 소식이 전해졌습니다. 최근 연구에 따르면, ReALM은 OpenAI의 유명한 언어 모델인 GPT-4.0보다 우수한 성능을 보이지만, 현재 Siri의 이미지 설명 능력은 여전히 일관성이 부족한 상황입니다.
ReALM의 주요 기능
ReALM은 사용자의 화면에 표시된 내용과 수행 중인 작업을 동시에 이해할 수 있는 능력이 특징입니다. 이 모델은 정보를 세 가지 유형으로 분류합니다:
1. 스크린 엔티티: 사용자의 화면에 현재 표시되고 있는 콘텐츠.
2. 대화 엔티티: "엄마에게 전화 걸기"와 같은 명령에 포함된 "엄마"의 연락처 정보 등 진행 중인 대화와 관련된 정보.
3. 백그라운드 엔티티: 음악 재생이나 알람과 같은 사용자의 현재 화면 콘텐츠나 동작과 직접 관련되지 않은 엔티티.
ReALM이 완전하게 운영될 경우, Siri는 훨씬 더 똑똑하고 유용해질 것입니다. 연구팀은 ReALM과 OpenAI의 GPT-3.5 및 GPT-4.0 간의 성능 비교를 진행하였고, 중요한 통찰을 얻었습니다:
“우리는 GPT-3.5와 GPT-4.0 모델에 상황 정보를 제공하여 다양한 엔티티를 예측하는 테스트를 진행했습니다. GPT-3.5는 텍스트 입력만 처리하지만, GPT-4는 이미지 데이터를 이해할 수 있어 스크린 엔티티 식별 능력이 크게 향상되었습니다.”
ReALM의 인상적인 결과
ReALM은 다양한 유형의 엔티티 인식에서 놀라운 진전을 보였습니다. 가장 작은 모델은 기존 시스템에 비해 스크린 엔티티 인식 정확도가 5% 이상 향상되었습니다. GPT-3.5 및 GPT-4.0과 비교할 때, 우리의 가장 작은 모델은 GPT-4.0과 동등한 성능을 보였고, 더 큰 모델은 이를 훨씬 능가했습니다.
연구의 결론 중 하나는 ReALM이 GPT-4보다 파라미터 수가 상당히 적음에도 불구하고, 특정 맥락에서 사용자 명령을 처리할 때 경쟁력 있는 성능을 발휘하여 효율적인 온디바이스 엔티티 인식 시스템으로 자리잡을 수 있다는 점입니다.
애플에게 있어 도전 과제는 이 기술을 기기에 효과적으로 배치하면서 성능을 저하시키지 않는 것입니다. WWDC 2024 개발자 컨퍼런스가 6월 10일에 다가오면서, 업계는 iOS 18 및 기타 차세대 시스템에서 애플의 새로운 AI 혁신을 기대하고 있습니다.