애플, 이미지 인식 및 자연어 이해 기능을 갖춘 300억 달러 규모의 MM1.5 멀티모달 AI 모델 발표

애플이 최근 300억 개의 매개변수를 갖춘 최신 멀티모달 AI 모델 MM1.5를 출시했습니다. 이번 버전은 이전 MM1 모델을 기반으로 상당한 개선을 이루었습니다.

MM1.5는 데이터 기반 훈련 원칙을 준수하며, 혼합 데이터가 다양한 훈련 주기 간 모델 성능에 미치는 영향을 면밀히 분석합니다. 새로운 모델에 대한 문서는 Hugging Face 플랫폼에 발표되었으며, 10억에서 300억 매개변수에 이르는 다양한 매개변수 구성을 제공합니다. 이 모델은 이미지 인식 및 자연어 추론 능력을 뽐냅니다.

이번 업데이트에서 애플 연구팀은 데이터 혼합 전략을 최적화하여 다중 텍스트 이미지 이해, 시각적 참조 및 위치 확인, 다중 이미지 추론 등에서 모델 성능을 크게 향상시켰습니다. 연구에 따르면 MM1.5의 사전 훈련 단계에서 고품질 OCR 데이터와 합성 이미지 설명이 포함되어 있어 텍스트가 많은 이미지를 이해하는 모델의 능력을 크게 향상시켰습니다. 또한 감독하에 미세 조정 단계에서는 다양한 데이터 유형이 모델 성능에 미치는 영향을 분석하고, 시각적 지침 튜닝 데이터 구성을 최적화하여 10억 및 30억 매개변수를 갖는 소형 모델도 뛰어난 성과를 달성할 수 있도록 했습니다.

추가적으로 애플은 비디오 이해를 위한 MM1.5-Video와 모바일 장치의 사용자 인터페이스(UI) 이해를 위한 MM1.5-UI와 같은 특화된 모델을 소개했습니다. MM1.5-UI 모델은 iOS 생태계를 위한 애플 AI의 초석이 될 것이며, 시각적 참조 및 위치 확인 작업을 효율적으로 처리하고, 화면 기능 요약이나 사용자 대화 상호작용을 수행할 수 있습니다.

MM1.5 모델은 여러 벤치마크에서 뛰어난 성능을 보이고 있지만, 애플 팀은 텍스트, 이미지 및 사용자 상호작용 데이터를 통합하여 더 복잡한 아키텍처를 개발함으로써 AI의 능력을 지속적으로 향상시키고 있습니다. 이러한 노력은 "애플 브랜드" AI의 효과성을 강화하고 모바일 장치 UI 이해 능력을 더욱 향상시키는 것을 목표로 하고 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles