애플 연구진이 모호한 참조와 주변 맥락에 대한 음성 비서의 이해를 향상시키는 고급 인공지능 시스템을 공개했습니다. 이 혁신은 금요일 발표된 논문에서 상세히 설명되었으며, 이름은 ReALM(Reference Resolution As Language Modeling)입니다.
ReALM은 대규모 언어 모델을 활용하여 화면의 시각적 요소 식별을 포함한 복잡한 참조 해결 작업을 언어 모델링 과제로 변환합니다. 이러한 전환은 현재 방법보다 성능을 크게 향상시키는 결과를 가져옵니다.
연구팀은 "맥락, 특히 참조를 이해하는 것은 대화형 비서에게 필수적입니다. 사용자가 화면의 보이는 콘텐츠를 쿼리할 수 있게 하는 것은 음성 비서와의 진정한 핸즈프리 경험을 달성하는 데 필수적입니다."라고 전했습니다.
대화형 비서 향상
ReALM의 두드러진 특징은 구문 분석된 엔티티와 위치를 사용하여 화면상의 시각적 요소를 재구성하는 능력입니다. 이 방식은 시각적 배열에 맞춘 텍스트 표현을 생성합니다. 연구팀은 참조 해결을 위한 언어 모델의 특화된 미세 조정과 결합된 이 방법이 GPT-4의 성능을 초월한다는 것을 증명했습니다.
애플의 AI 시스템인 ReALM은 “260 Sample Sale” 목록과 같은 화면 항목에 대한 참조를 효과적으로 해석하여 음성 비서와의 상호작용을 더욱 풍부하게 만듭니다. 연구자들은 "우리의 가장 작은 모델이 화면 참조 정확도에서 5% 이상의 성과를 달성하며 기존 시스템보다 상당한 개선을 보여줍니다. 더 큰 모델은 GPT-4를 크게 초월합니다."라고 밝혔습니다.
실용적 응용 및 한계
이번 연구는 포커스 언어 모델이 대규모 엔드 투 엔드 모델이 지연이나 계산 제약으로 인해 실용적이지 않은 생산 환경에서 참조 해결과 같은 작업을 수행할 가능성을 강조합니다. 이 연구 결과를 공유함으로써 애플은 Siri 및 기타 제품의 대화형 및 맥락 인식 기능 향상에 대한 헌신을 재확인했습니다.
그러나 팀은 자동 화면 구문 분석의 어려움을 인정합니다. 여러 이미지를 구별하는 것과 같은 복잡한 시각적 참조를 해결하기 위해서는 컴퓨터 비전 및 다중 모달 기술의 통합이 필요할 수 있습니다.
애플의 AI 야망
애플은 인공지능 연구에서 빠른 발전을 이루고 있지만, 현재 AI 지배 경쟁에서 경쟁사들에 뒤처져 있습니다. 최근의 발전은 시각적 및 언어 데이터를 통합한 다중 모달 모델에서 AI 기반 애니메이션 도구까지 다양합니다.
애플은 조심스러운 접근으로 알려져 있지만, 구글, 마이크로소프트, 아마존, 오픈AI와 같은 거대한 경쟁사들로부터 강력한 위협을 받고 있습니다. 이들은 자사 제품에 생성 AI를 적극적으로 통합하고 있습니다.
AI 환경이 빠르게 진화함에 따라 애플은 도전적인 위치에 놓여 있습니다. 회사는 다가오는 세계 개발자 회의에서 “Apple GPT”라는 새로운 대규모 언어 모델 프레임워크와 함께 다양한 AI 기능을 제품 라인에 추가할 것으로 기대됩니다.
CEO 팀 쿡은 실적 발표에서 애플의 AI 이니셔티브에 대한 세부사항이 올해 후반에 공유될 것이라고 hint했습니다. 회사의 전략은 여전히 신중하지만, AI 노력의 범위는 분명히 확장되고 있습니다.
AI 리더십 경쟁이 치열해짐에 따라 애플의 늦은 출발은 경쟁 압박을 가하는 상황을 만들었습니다. 그럼에도 불구하고 방대한 자원, 브랜드 충성도, 우수한 엔지니어링, 통합된 제품 포트폴리오는 잠재적인 이점을 제공합니다.
지능형 컴퓨팅의 새로운 시대가 다가오고 있습니다. 6월에는 애플이 이 변혁에 영향을 미치도록 충분히 준비했는지 지켜보게 될 것입니다.