애플, 화면 이해 및 음성 응답 기능을 갖춘 새로운 AI 비서 공개

애플, 혁신적인 AI 시스템 ReALM 발표

4월 2일, 애플의 연구팀은 ReALM(Reference Resolution As Language Modeling)이라는 혁신적인 인공지능 시스템의 성공적인 개발을 발표하는 논문을 공개했습니다. 이 시스템은 화면에 표시된 모호한 콘텐츠와 그에 수반되는 대화 및 맥맥을 정확하게 해석하여 음성 비서와의 자연스러운 상호작용을 도움니다.

ReALM은 대형 언어 모델을 활용하여 화면의 시각적 요소를 언어 기반 쿼리로 간소화합니다. 이 변화는 기존 기술에 비해 성능을 크게 향상시킵니다. 연구팀은 "대화형 비서가 맥락을 이해하는 것은 필수적이며, 사용자가 화면 콘텐츠를 기반으로 질문할 수 있도록 합니다. 이는 진정한 음성 조작 경험을 위해 중요합니다."라고 밝혔습니다.

대화형 비서 기능 강화

ReALM의 주요 특징 중 하나는 정보를 분석하고 공간적 관계를 파악하여 화면 콘텐츠를 재구성하는 능력입니다. 이 기능은 인터페이스의 시각적 레이아웃을 파악하는 데 필수적입니다. 연구자들은 이 방법이 언어 모델과 결합하여 관련 작업에서 GPT-4를 초월한다고 증명했습니다. 그들은 "우리는 기존 시스템에 비해 상당한 개선을 이루었으며, 소형 모델에서 5% 이상의 향상된 성능을 달성하고 대형 모델에서는 GPT-4를 크게 초월했습니다."라고 언급했습니다.

실용적 응용 및 한계

이번 연구는 콘텐츠 참조 해결과 같은 작업에서 언어 모델의 엄청난 잠재력을 강조합니다. 그러나 대형 엔드 투 엔드 모델은 응답 시간 및 컴퓨팅 자원의 제약으로 인해 구현에 어려움을 겪습니다. 애플은 혁신적인 연구를 통해 Siri와 같은 제품의 대화 능력 및 맥락 이해력을 강화하고자 지속적으로 노력하고 있습니다. 그러나 연구자들은 복잡한 시각 데이터 처리를 위해 컴퓨터 비전 및 다중 모드 기술과의 통합이 필요할 수 있음을 경고했습니다.

AI 경쟁자와의 격차 해소

애플은 인공지능 분야에 다소 늦게 진입했지만, 최근 상당한 발전을 이루었습니다. 시각 및 언어 기능을 통합하는 다중 모드 모델에서 AI 기반 애니메이션 도구 및 고성능 전문 AI 기술까지, 애플의 연구실은 기술 혁신을 지속하고 있습니다. 구글, 마이크로소프트, 아마존, 오픈AI와 같은 경쟁사들이 검색 및 오피스 소프트웨어 분야에서 고급 AI 제품을 출시함에 따라 애플은 따라잡기 위해 적극적으로 노력하고 있습니다.

역사적으로 애플은 혁신적인 접근 방식에서 보수적이었으나, 현재는 급변하는 AI 시장에 직면해 있습니다. 오는 6월 열리는 세계 개발자 회의에서 애플은 새로운 대형 언어 모델 프레임워크와 'AppleGPT'라는 챗봇, 그리고 기타 AI 기능을 공개할 것으로 예상됩니다. CEO 팀 쿡은 실적 발표에서 "올해 후반에 AI 분야에서 우리의 성과를 공유하게 되어 기대됩니다."라고 언급했습니다. 낮은 프로필을 유지하는 가운데, 애플의 AI 관련 이니셔티브는 업계의 이목을 집중시키고 있습니다.

애플의 상대적인 경쟁 지연은 도전 과제가 되지만, 강력한 재정 상태, 브랜드 충성도, 최고 수준의 엔지니어 팀, 원활한 제품 통합은 변화를 이끌어낼 수 있는 탄탄한 기반이 됩니다.

Most people like

Find AI tools in YBX