애플, AI 기술 공개: 새로운 모델들이 미스트랄과 허깅 페이스의 성능을 초월하다

새로운 GPT-4o-mini의 능력에 대한 기대감이 고조됨에 따라, Apple은 Hugging Face에서 여러 개의 공개 데이터 컴프 모델(DCLM)을 출시하여 컴팩트 AI 모델 컬렉션을 확장했습니다. 이 패키지에는 70억 개의 파라미터를 가진 모델과 14억 개의 파라미터를 가진 모델, 두 가지 주요 모델이 포함되어 있습니다. 두 모델 모두 벤치마크 테스트에서 우수한 성능을 보였으며, 특히 더 큰 모델은 Mistral-7B를 능가하며 Llama 3 및 Gemma와 같은 다른 선도적인 공개 모델의 성능에 빠르게 근접하고 있습니다.

Apple ML 팀의 Vaishaal Shankar는 이 모델들을 "최고 성능"의 오픈 소스 옵션으로 평가했습니다. 특히, 이 프로젝트는 모델 가중치, 훈련 코드 및 사전 훈련 데이터셋을 공개함으로써 오픈 소스 원칙을 완전히 수용했습니다.

Apple DCLM 모델 개요

DataComp 프로젝트는 Apple, 워싱턴 대학교, 텔아비브 대학교, 그리고 도요타 연구소의 연구자들이 참여하는 협력 이니셔티브입니다. 이 프로젝트의 목표는 AI 모델 훈련을 위한 고품질 데이터셋을 생성하는 것으로, 특히 다중 모달 도메인에서의 활용을 지향합니다. 팀은 고정된 모델 구조, 훈련 코드, 하이퍼파라미터 및 평가 기준을 사용하여 다양한 데이터 큐레이션 전략을 테스트하고 모델 성능을 최적화합니다.

초기 실험에서는 모델 기반 필터링—기계 학습 모델이 대규모 데이터셋에서 고품질 데이터를 필터링 및 선택하는 과정—이 우수한 훈련 세트를 구성하는 데 중요한 역할을 한다는 사실이 밝혀졌습니다. 이 큐레이션 기법을 통해 팀은 DCLM-Baseline 데이터셋을 개발하여 70억 개 및 14억 개 파라미터의 디코더 전용 트랜스포머 모델을 처음부터 훈련하는 데 중요한 역할을 했습니다.

70B 모델은 OpenLM의 사전 훈련 레시피를 사용해 2.5조 개의 토큰으로 훈련되었으며, 2K의 컨텍스트 창을 갖추고 MMLU 벤치마크에서 63.7%의 5샷 정확도를 기록했습니다. 이는 이전의 오픈 데이터 언어 모델 리더인 MAP-Neo보다 6.6% 포인트 향상된 성과이며, 훈련 중 40% 적은 컴퓨팅 파워를 사용했습니다.

MMLU 성능은 오픈 가중치를 가지고 있지만 폐쇄된 데이터를 사용하는 다른 주요 모델들과 밀접하게 연관되어 있습니다. 예를 들어, Mistral-7B-v0.3(62.7%), Llama3 8B(66.2%), Google의 Gemma(64.3%), Microsoft의 Phi-3(69.9%)와 같습니다.

또한, 연구자들이 모델의 컨텍스트를 8K로 늘리고 데이터셋 분해 기법을 사용해 1000억 번의 추가 훈련을 실시했을 때, Core 및 Extended 벤치마크에서 성능 향상이 관찰되었지만 MMLU 결과는 일관성을 유지했습니다. 연구자들은 "우리의 발견은 언어 모델 훈련에서 데이터셋 설계의 중요성을 강조하고 데이터 큐레이션에 대한 계속된 연구의 기초가 된다"고 밝혔습니다.

작은 모델의 인상적인 성능

DCLM-7B와 유사하게, 도요타 연구소와 협력으로 개발된 14B 모델은 2.6조 개의 토큰을 사용하여 MMLU, Core 및 Extended 테스트에서 뛰어난 성능을 보여주고 있습니다. 5샷 MMLU 평가에서 41.9%를 기록하여 같은 범주의 다른 모델들, 특히 Hugging Face의 SmolLM(39.97%)를 초월했습니다. Qwen-1.5B와 Phi-1.5B는 각각 37.87%와 35.90%의 점수를 기록했습니다.

현재 70B 모델은 Apple의 샘플 코드 라이센스 하에 제공되고 있으며, 14B 모델은 Apache 2.0 라이센스 하에 공개되어 상업적 사용, 배포 및 수정이 가능합니다. 또한, 70B 모델의 지침 조정 버전이 Hugging Face 라이브러리에도 제공됩니다.

이번 출시가 데이터 큐레이션 효과성을 강조하는 초기 연구로서 중요한 의미를 가진다는 점을 강조할 필요가 있습니다. 이 모델들은 Apple 기기에서 사용하기 위한 것이 아니며, 훈련 데이터셋에서 발생할 수 있는 편향이나 잠재적으로 해로운 반응을 보일 수 있습니다.

Most people like

Find AI tools in YBX