隨著對新款 GPT-4o-mini 能力的期待升高,Apple 在 Hugging Face 上推出多個開放的語言模型數據處理(DCLM)模型,擴展了其緊湊型 AI 模型系列。該套件包含兩個重要模型:一個擁有 70 億個參數,另一個為 14 億。這兩個模型在基準測試中表現出色,尤其是較大的模型,不僅超越了 Mistral-7B,並且快速接近其他知名開放模型如 Llama 3 和 Gemma 的性能。
Apple ML 團隊的 Vaishaal Shankar 稱這些模型為「最佳表現」的開源選擇。值得注意的是,該項目完全遵循開源原則,公開了模型權重、訓練代碼及預訓練數據集。
Apple DCLM 模型總覽
DataComp 項目是一個合作倡議,參與者包括 Apple、華盛頓大學、特拉維夫大學及豐田研究所。其目標是創建高質量數據集以訓練 AI 模型,特別是在多模態領域。團隊採用標準化框架,使用固定的模型架構、訓練代碼、超參數和評估方式來測試各種數據整理策略,以優化模型性能。
早期實驗顯示,基於模型的篩選—即機器學習模型從大型數據集中篩選和選擇高質量數據—在組建優秀訓練集方面至關重要。運用這一整理技術,團隊開發了 DCLM-Baseline 數據集,這對從零開始訓練 70 億和 14 億參數的解碼器單一轉換器模型至關重要。
70B 模型在使用 OpenLM 預訓練處方訓練的 2.5 兆個標記下,具有 2K 的上下文窗口,在 MMLU 標準中達到 63.7% 的 5-shot 精度,較 MAP-Neo,開放語言模型的前領導者提高了 6.6 個百分點,且在訓練過程中消耗的計算能力降低了 40%。
值得注意的是,其 MMLU 表現接近於採用開放權重但數據封閉的領先模型,如 Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、Google 的 Gemma(64.3%)及 Microsoft 的 Phi-3(69.9%)。
此外,當研究人員將模型的上下文延長至 8K,並使用數據集分解技術進行了增加 1000 億次的訓練迭代後,發現核心及擴展基準的性能進一步改善,雖然 MMLU 的結果仍保持一致。「我們的研究結果強調了數據集設計對語言模型訓練的重要性,並為持續的數據整理研究奠定了基礎,」研究人員在關於 DataComp-LM 的論文中指出。
小型模型的驚人表現
1.4B 小型模型與 DCLM-7B 相似,與豐田研究所共同開發,使用了 2.6 兆個標記,在 MMLU、核心及擴展測試中也展現出卓越性能。在 5-shot MMLU 評估中,它達到 41.9%,超越了其類別中的其他模型,包括 Hugging Face 的 SmolLM(分數為 39.97%),Qwen-1.5B 和 Phi-1.5B 分別為 37.87% 和 35.90%。
目前,70B 模型在 Apple 的示例代碼許可下可用,而 14B 模型則根據 Apache 2.0 釋出,允許商業使用、分發及修改。此外,Hugging Face 庫中還提供了一個指令調整版本的 70B 模型。
值得強調的是,此發布代表了強調數據整理有效性的早期研究。这些模型並不設計用於 Apple 裝置,可能會展現訓練數據集的偏見或產生潛在的有害回應。