애플 연구진은 텍스트와 시각 정보를 매끄럽게 통합하여 대형 언어 모델(LLM)을 훈련하는 혁신적인 방법을 개발했습니다. 이 혁신은 "MM1: 다중 모달 LLM을 위한 사전 훈련 방법, 분석 및 통찰"이라는 제목의 논문에서 자세히 설명되며, 더 스마트하고 다재다능한 인공지능 시스템을 만드는 새로운 경로를 제시합니다.
애플은 이미지-캡션 쌍, 교차된 이미지-텍스트 문서, 순수 텍스트 데이터가 포함된 다양한 데이터 세트를 활용하여 MM1 모델이 이미지 캡션 생성, 시각 질문 응답, 자연어 추론 등에서 뛰어난 정확성을 보여준다고 주장합니다. 이 연구는 다양한 훈련 데이터 유형과 모델 아키텍처의 조합에 중점을 두어 AI의 새로운 기준을 설정하며, 기계가 시각적 및 언어적 단서를 바탕으로 이해하고 응답할 수 있는 능력을 배양합니다. 이러한 능력은 복잡한 이미지를 설명하거나 시각적 요소와 관련된 질문에 답하는 등 세상을 정교하게 해석해야 하는 작업에 필수적입니다.
논문은 MM1의 인상적인 맥락 학습 능력을 강조하며, 특히 최대 30억 개의 매개변수를 가진 구성에서 두드러집니다. 특히 "사고의 연쇄" 추론을 적용한 MM1은 몇 가지 예시만으로 복잡한 개방형 문제를 해결할 수 있습니다.
이 연구는 치열한 경쟁 속에서 애플의 인공지능 역량을 강화하는 중요한 이정표를 나타냅니다. 최근 보도에 따르면 애플은 아이폰의 iOS 18에 새로운 기능을 지원하기 위해 구글과 제미니 생성 LLM 라이센스를 논의 중입니다.