蘋果推出 OpenELM：針對設備性能優化的緊湊型開源 AI 模型

Home AI新聞蘋果推出 OpenELM：針對設備性能優化的緊湊型開源 AI 模型

隨著科技巨頭如Google、三星和微軟在個人電腦和移動設備上增強其生成式AI能力，蘋果公司也進入這一領域，推出了OpenELM，這是一套全新的開源大型語言模型（LLMs），旨在無需雲端連接即可在獨立設備上運行。OpenELM近期在AI代碼社區Hugging Face上發布，涵蓋了多個經過優化的小型模型，專注於高效的文本生成任務。

OpenELM概述

OpenELM家族包括八個模型——四個預訓練模型和四個指令調整模型，參數數量從2.7億到30億不等，這些參數代表了LLM中人工神經元之間的連接，通常而言，參數越多，性能越佳。預訓練使模型能生成連貫的文本，主要是基於提示進行文本預測。而指令調整則幫助模型提供更相關且具體的回應。例如，當被問到「教我如何烤麵包」時，預訓練模型可能僅僅回答「在家庭烤箱中」，而指令調整模型則會提供詳細的步驟。

蘋果已將其OpenELM模型的權重以「樣本代碼許可證」形式公佈，允許商業使用和修改，前提是任何未修改的再分發保留附加的通知和聲明。然而，蘋果警告用戶這些模型可能產生不準確、有害、偏見或令人反感的輸出。這一發布標誌著蘋果的一個重大轉變，傳統上以保密和封閉的技術生態系統而聞名。此前，該公司推出了Ferret，一種具有多模態能力的開源語言模型，強調了其對開源AI社區的承諾。

OpenELM的主要特徵

OpenELM，意為開源高效語言模型，針對設備內應用，與Google、三星和微軟等競爭對手的策略相呼應。例如，微軟最近的Phi-3 Mini模型完全在智能手機上運行，顯示了可攜式AI解決方案的趨勢。OpenELM的開發由Sachin Mehta主導，Mohammad Rastegari和Peter Zatloukal也做出了重要貢獻。這些模型有四種規模：2.7億、4.5億、11億和30億參數，均小於許多領先模型，後者通常超過70億參數。模型是在來自Reddit、Wikipedia和arXiv.org的18萬億數據集上訓練而成，確保了語言理解的多樣性。

性能洞察

OpenELM的性能基準顯示出良好的結果，特別是450萬參數的指令變種。值得注意的是，11億的OpenELM模型在性能上超過了來自艾倫人工智能研究所的OLMo，顯示出其效能，同時在預訓練中需要的標記顯著較少。在各種基準測試中，預訓練的OpenELM-3B顯示出的準確率如下：

- ARC-C: 42.24%

- MMLU: 26.76%

- HellaSwag: 73.28%

初步用戶反饋顯示，雖然OpenELMproduces提供了可靠且一致的輸出，但在創造力方面有所欠缺，不太可能探索非常規或不適合工作的主題。相比之下，微軟的Phi-3 Mini因其更大的參數數量和上下文長度，在性能指標上佔優勢。

結論

隨著OpenELM模型的測試和完善，這些模型有望增強設備內的AI應用。社區將如何利用這一開源倡議，尤其在蘋果對透明性和合作的承諾引起興趣的背景下，值得關注。

AutoAlign 從 Armilla 轉型推出創新的 AI 安全平台「Sidecar」

Nooks 獲得 2200 萬美元資金，提升銷售代表的表現，運用人工智能驅動的通話技術。