애플 연구팀, 화면 콘텐츠 이해 가능한 '비전' 기능 갖춘 AI 시스템 공개

Home Hardware 애플 연구팀, 화면 콘텐츠 이해 가능한 '비전' 기능 갖춘 AI 시스템 공개

애플 연구진이 디지털 비서의 모호한 참조 및 대화 맥락 해석을 개선하여 보다 자연스러운 상호작용을 가능하게 하는 혁신적인 AI 시스템 'ReALM'(Reference Resolution As Language Modeling)을 개발했습니다. 이 혁신적인 발전은 최근에 발표되었습니다.

ReALM은 대규모 언어 모델을 활용하여 화면상의 시각적 요소 이해와 같은 복잡한 참조 해석 작업을 언어 모델링 과제로 전환합니다. 애플 연구팀은 "맥락과 참조를 이해하는 것은 대화형 비서에게 매우 중요합니다. 사용자에게 화면 콘텐츠를 질의할 수 있도록 하는 것은 진정한 핸즈프리 경험을 달성하기 위한 핵심 단계입니다"라고 밝혔습니다.

ReALM의 주요 발전 중 하나는 위치 파싱을 사용하여 화면의 개체를 재배치하는 능력으로, 이는 시각적 레이아웃을 유지하는 텍스트 표현을 생성합니다. 테스트 결과, 참조 해석을 위해 특별히 미세 조정된 언어 모델과 결합했을 때 이 방법은 GPT-4의 성능을 능가하는 것으로 나타났습니다. 연구자들은 "우리 시스템은 다양한 유형의 참조에서 성능을 극적으로 향상시켰고, 작은 모델은 화면 참조 관련 작업에서 5% 이상의 절대 성능 향상을 달성했으며, 큰 모델은 GPT-4를 크게 초월했습니다"라고 전했습니다.

이번 연구는 참조 해석 작업을 해결하는 데 특화된 언어 모델의 잠재력을 강조합니다. 실제 상황에서는 대규모 엔드 투 엔드 모델의 배포가 지연 시간이나 계산 제약으로 인해 비현실적일 수 있습니다. 이 발견은 애플이 Siri 및 기타 제품의 대화 능력과 맥락 이해능력을 향상시키려는 지속적인 노력을 보여줍니다.

그러나 연구자들은 자동 화면 파싱이 한계가 있다고 경고했습니다. 여러 이미지 간의 구별과 같은 더 복잡한 시각적 참조를 다루기 위해서는 컴퓨터 비전 및 다중 모드 기술의 통합이 필요할 수 있습니다.

애플은 AI 분야에서 조용히 많은 진전을 이루어왔지만, 여전히 이 빠르게 발전하는 시장에서 경쟁업체에 비해 뒤쳐져 있습니다. 회사의 연구소는 멀티모달 모델, AI 기반 도구 및 고성능 특화 AI 기술 분야에서 지속적으로 혁신하고 있으며, 이는 인공지능 분야에 대한 포부를 반영합니다.

6월에 예정된 세계 개발자 회의(WDC)에서는 애플이 새로운 대규모 언어 모델 프레임워크와 "애플 GPT" 챗봇, 그리고 자사 생태계 내의 다른 AI 기능을 공개할 것으로 기대되며, 시장 변화에 신속하게 적응하려는 의지를 보이고 있습니다.

아이폰의 새로운 AI 혁신: 새로운 기능과 미래 트렌드 탐구

애플 연구원들, ReALM 장치 모델이 GPT-4를 초월하여 시리의 지능을 크게 향상시킨다고 주장