蘋果今天發布了一系列開源的大型語言模型(LLMs),旨在在設備本地運行,而非依賴雲伺服器。這些模型被命名為OpenELM(開放高效語言模型),目前可在Hugging Face Hub上獲得,為分享AI代碼提供了一個社群平台。
OpenELM包括八個模型,其中四個使用CoreNet庫進行預訓練,四個則通過指導性調整進行微調。蘋果實施了一種分層擴展策略,能夠有效分配Transformer模型各層的參數,提升了準確性和效率。例如,在大約十億的參數預算內,OpenELM比OLMo提高了2.36%的準確性,同時將預訓練令牌的需求減少了一半。
與之前僅提供模型權重和推斷代碼的發布相比,此次推出為在公共數據集上訓練和評估語言模型提供了全面的框架,包括訓練日誌、多個檢查點及預訓練配置。蘋果希望這一舉措能加速自然語言AI領域的進步,並提供“更可靠的結果”。
這些開源模型的發布旨在“賦能和豐富開放研究社區”,使研究人員能夠深入調查模型的風險、數據使用和偏見。開發者和公司也被鼓勵直接利用或修改這些模型以滿足其具體需求。
通過公開分享這些資訊,蘋果致力於吸引領先的工程師、科學家和專家推動相關領域的研究,儘管在蘋果的保密政策下,發表研究面臨挑戰。儘管AI功能尚未整合到蘋果設備中,iOS 18預計將推出一系列新的AI能力,並顯示蘋果計劃將其大型語言模型過渡到設備本地運行,以增強隱私保護。