앨런 인스티튜트 포 AI(Ai2)는 Molmo를 공식 출시했습니다. Molmo는 최첨단 멀티모달 AI 모델의 오픈 소스 제품군으로, OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5와 같은 주요 상용 경쟁 모델을 여러 제3사 벤치마크에서 초월했습니다.
Molmo는 이미지와 파일 분석이 가능한 멀티모달 모델로, 기존의 선도적인 상용 기반 모델과 유사한 기능을 제공합니다. 특히 Ai2는 혁신적인 학습 방법 덕분에 자사의 모델이 "1000배 적은 데이터"를 사용한다고 주장하며, 이는 Paul Allen이 설립한 회사의 Ali Farhadi가 작성한 최신 기술 보고서에 자세히 설명되어 있습니다.
Ai2는 Molmo가 스마트폰에서 실시간 장면을 효율적으로 분석하는 모습을 보여주는 시연 영상을 YouTube에 공유했습니다. 사용자는 사진을 찍기만 하면 즉시 처리할 수 있으며, 사람 수 세기, 비건 메뉴 항목 식별, 전단지 해석, 전자 음악 밴드 구분, 화이트보드에서 손글씨를 구조화된 표로 변환하는 등의 예시가 있습니다.
이번 출시는 Ai2가 고성능 모델을 제공하여 연구를 촉진하려는 의지를 반영하는 것으로, 접근 가능한 가중치와 데이터를 통해 맞춤형 솔루션을 찾는 광범위한 커뮤니티와 기업에 기여하고자 합니다. Molmo는 Ai2가 최근 도입한 OLMoE라는 비용 효율적인 "전문가 혼합" 아키텍처 기반 모델을 따릅니다.
모델 변형 및 성능
Molmo는 다양한 매개변수 크기와 기능을 가진 네 가지 주요 모델로 구성되어 있습니다:
- Molmo-72B: 720억 매개변수를 가진 플래그십 모델로, Alibaba Cloud의 Qwen2-72B를 기반으로 합니다.
- Molmo-7B-D: Alibaba의 Qwen2-7B에서 파생된 시연 모델입니다.
- Molmo-7B-O: Ai2의 OLMo-7B를 기반으로 합니다.
- MolmoE-1B: 학술 벤치마크와 사용자 선호도에서 GPT-4V의 성능에 거의 맞먹는 효율성 중심 모델입니다.
이 모델들은 다양한 제3사 벤치마크에서 인상적인 성능을 보여주며, 많은 상용 대안 모델들을 일관되게 초월합니다. 모든 모델은 연구 및 상업적 사용이 가능한 Apache 2.0 라이선스 하에 제공됩니다. Molmo-72B는 학술 평가에서 최상의 점수를 기록하며, 11개의 주요 벤치마크에서 가장 높은 점수를 얻고, 사용자 선호도에서는 GPT-4o 다음으로 2위를 차지했습니다.
Hugging Face의 머신러닝 개발자 옹호자인 Vaibhav Srivastav는 Molmo가 폐쇄 시스템에 대한 강력한 대안을 제시하며 오픈 멀티모달 AI의 기준을 높인다고 강조했습니다. 또한 Google DeepMind의 로봇 연구원 Ted Xiao는 Molmo의 포인팅 데이터 통합을 찬양하며 로봇의 시각적 기초 작업을 위한 중요한 발전이라고 설명했습니다.
고급 아키텍처 및 훈련
Molmo의 아키텍처는 최적의 효율성과 성능을 위해 설계되었습니다. 각 모델은 OpenAI의 ViT-L/14 336px CLIP 모델을 비전 인코더로 활용하여 다중 스케일 이미지를 비전 토큰으로 변환합니다. 이러한 토큰은 다층 퍼셉트론(MLP) 커넥터를 통해 처리된 후 언어 모델에 통합됩니다.
훈련 프로토콜에는 두 가지 중요한 단계가 포함됩니다:
- 멀티모달 사전 학습: 모델은 PixMo라 불리는 고품질 데이터 세트를 활용하여 인간 주석 제공자의 자세한 이미지 설명에서 캡션을 생성하도록 학습됩니다.
- 감독된 세부 조정: 모델은 학술 벤치마크와 새로 개발된 데이터 세트를 포함한 다양한 데이터 세트에서 세부 조정되며, 문서 읽기 및 시각적 추론과 같은 복잡한 작업을 수행하도록 준비됩니다.
Molmo는 많은 현대 모델과 달리 인간 피드백에 의한 강화 학습(RLHF)에 의존하지 않으며, 사전 학습 상태를 기반으로 모든 매개변수를 업데이트하는 정밀하게 조정된 훈련 파이프라인을 사용합니다.
벤치마크 성능
Molmo 모델은 다양한 벤치마크에서 뛰어난 결과를 보이며, 특히 상용 모델을 초월합니다. 예를 들어, Molmo-72B는 DocVQA에서 96.3, TextVQA에서 85.5를 기록하며 Gemini 1.5 Pro와 Claude 3.5 Sonnet을 초과합니다. 또한 Ai2D에서도 96.3이라는 점수를 기록하며 모든 모델 패밀리 중에서 가장 높은 점수를 기록했습니다.
특히 Molmo-72B는 시각적 기초 작업에서 뛰어난 성과를 거두며 RealWorldQA에서 최고 점수를 달성하여 로봇 및 복잡한 멀티모달 추론 응용 프로그램에 유망한 후보로 떠오르고 있습니다.
오픈 액세스 및 향후 발전
Ai2는 이러한 모델과 데이터 세트를 Hugging Face 공간에 무료로 제공하여 Transformers와 같은 인기 AI 프레임워크와의 호환성을 보장합니다. 이 이니셔티브는 AI 커뮤니티 내에서 혁신과 협력을 촉진하려는 Ai2의 사명의 일환입니다.
앞으로 몇 달 안에 Ai2는 추가 모델, 훈련 코드, 확장된 기술 보고서를 출시할 계획이며, 연구자들을 위한 자원을 더욱 강화할 것입니다. Molmo의 기능에 관심 있는 분들은 Molmo의 공식 페이지에서 공개 시연 및 모델 체크포인트를 이용할 수 있습니다.