애플 연구팀, 사용자 경험 향상을 위한 화면 맥락을 '보는' AI 개발

Home AI 뉴스 애플 연구팀, 사용자 경험 향상을 위한 화면 맥락을 '보는' AI 개발

애플 연구진이 모호한 참조와 주변 맥락에 대한 음성 비서의 이해를 향상시키는 고급 인공지능 시스템을 공개했습니다. 이 혁신은 금요일 발표된 논문에서 상세히 설명되었으며, 이름은 ReALM(Reference Resolution As Language Modeling)입니다.

ReALM은 대규모 언어 모델을 활용하여 화면의 시각적 요소 식별을 포함한 복잡한 참조 해결 작업을 언어 모델링 과제로 변환합니다. 이러한 전환은 현재 방법보다 성능을 크게 향상시키는 결과를 가져옵니다.

연구팀은 "맥락, 특히 참조를 이해하는 것은 대화형 비서에게 필수적입니다. 사용자가 화면의 보이는 콘텐츠를 쿼리할 수 있게 하는 것은 음성 비서와의 진정한 핸즈프리 경험을 달성하는 데 필수적입니다."라고 전했습니다.

대화형 비서 향상

ReALM의 두드러진 특징은 구문 분석된 엔티티와 위치를 사용하여 화면상의 시각적 요소를 재구성하는 능력입니다. 이 방식은 시각적 배열에 맞춘 텍스트 표현을 생성합니다. 연구팀은 참조 해결을 위한 언어 모델의 특화된 미세 조정과 결합된 이 방법이 GPT-4의 성능을 초월한다는 것을 증명했습니다.

애플의 AI 시스템인 ReALM은 “260 Sample Sale” 목록과 같은 화면 항목에 대한 참조를 효과적으로 해석하여 음성 비서와의 상호작용을 더욱 풍부하게 만듭니다. 연구자들은 "우리의 가장 작은 모델이 화면 참조 정확도에서 5% 이상의 성과를 달성하며 기존 시스템보다 상당한 개선을 보여줍니다. 더 큰 모델은 GPT-4를 크게 초월합니다."라고 밝혔습니다.

실용적 응용 및 한계

이번 연구는 포커스 언어 모델이 대규모 엔드 투 엔드 모델이 지연이나 계산 제약으로 인해 실용적이지 않은 생산 환경에서 참조 해결과 같은 작업을 수행할 가능성을 강조합니다. 이 연구 결과를 공유함으로써 애플은 Siri 및 기타 제품의 대화형 및 맥락 인식 기능 향상에 대한 헌신을 재확인했습니다.

그러나 팀은 자동 화면 구문 분석의 어려움을 인정합니다. 여러 이미지를 구별하는 것과 같은 복잡한 시각적 참조를 해결하기 위해서는 컴퓨터 비전 및 다중 모달 기술의 통합이 필요할 수 있습니다.

애플의 AI 야망

애플은 인공지능 연구에서 빠른 발전을 이루고 있지만, 현재 AI 지배 경쟁에서 경쟁사들에 뒤처져 있습니다. 최근의 발전은 시각적 및 언어 데이터를 통합한 다중 모달 모델에서 AI 기반 애니메이션 도구까지 다양합니다.

애플은 조심스러운 접근으로 알려져 있지만, 구글, 마이크로소프트, 아마존, 오픈AI와 같은 거대한 경쟁사들로부터 강력한 위협을 받고 있습니다. 이들은 자사 제품에 생성 AI를 적극적으로 통합하고 있습니다.

AI 환경이 빠르게 진화함에 따라 애플은 도전적인 위치에 놓여 있습니다. 회사는 다가오는 세계 개발자 회의에서 “Apple GPT”라는 새로운 대규모 언어 모델 프레임워크와 함께 다양한 AI 기능을 제품 라인에 추가할 것으로 기대됩니다.

CEO 팀 쿡은 실적 발표에서 애플의 AI 이니셔티브에 대한 세부사항이 올해 후반에 공유될 것이라고 hint했습니다. 회사의 전략은 여전히 신중하지만, AI 노력의 범위는 분명히 확장되고 있습니다.

AI 리더십 경쟁이 치열해짐에 따라 애플의 늦은 출발은 경쟁 압박을 가하는 상황을 만들었습니다. 그럼에도 불구하고 방대한 자원, 브랜드 충성도, 우수한 엔지니어링, 통합된 제품 포트폴리오는 잠재적인 이점을 제공합니다.

지능형 컴퓨팅의 새로운 시대가 다가오고 있습니다. 6월에는 애플이 이 변혁에 영향을 미치도록 충분히 준비했는지 지켜보게 될 것입니다.

세일즈포스의 새로운 아인슈타인 코파일럿으로 데이터 분석 여정을 시작하세요. Tableau와 함께하는 혁신적인 분석 도구로 폭넓은 통찰력을 제공받고, 데이터 기반 결정을 지원합니다.

생성형 AI가 사이버 보안 자원 격차를 해소할 수 있을까?

Most people like

Thatch

204.5K

전 세계의 지역 전문가들이 엄선한 여행 가이드와 맞춤형 계획 서비스를 만나보세요. 우리의 전문팀이 보유한 내부 정보와 맞춤 추천으로 여러분의 여행 경험을 한층 더 풍부하게 만들어 드립니다.

여행 가이드 AI Trip Planner

Easy With AI

1.6M

인터넷에서 최고의 AI 도구 모음을 만나보세요 온라인에서 사용할 수 있는 가장 방대한 AI 도구 모음을 탐색하세요. 개발자, 마케터, 연구자 누구나 사용할 수 있도록 엄선한 혁신적인 솔루션이 여러분의 필요에 맞춰 제공됩니다. 성장하는 커뮤니티에 참여하고 오늘날 최첨단 인공지능 기술로 여러분의 프로젝트를 향상시키세요!

인공지능 AI Tools Directory

Octavia - Your crypto AI Assistant

26.1K

옥타비아는 당신의 암호화폐 연구를 향상시키고 거래를 간소화하기 위해 설계된 AI 기반 웹3 어시스턴트입니다.

암호화폐 AI 도우미 AI Chatbot

Shortspilot

87.3K

혁신적인 AI 도구를 소개합니다. 이 도구는 짧은 비디오 제작과 게시 과정을 자동화하여 손쉽게 사용할 수 있도록 설계되었습니다. 강력한 소프트웨어는 전체 프로세스를 간소화하여 사용자들이 빠르고 효율적으로 매력적인 비디오 콘텐츠를 제작할 수 있게 합니다. 사용자 친화적인 인터페이스를 통해 아이디어를 매력적인 비디오로 신속하게 변환할 수 있어 콘텐츠 제작자와 마케팅 담당자 모두에게 필수적인 자원이 됩니다. 최첨단의 짧은 비디오 자동화 솔루션으로 온라인 존재감을 강화하고 참여도를 높여보세요.

인공지능 AI Social Media Assistant

Find AI tools in YBX