今日,H2O AI—致力於透過開源與專有工具推動AI民主化—宣布推出Danube,一款專為行動裝置設計的超輕型大型語言模型(LLM)。
這款以歐洲第二大河流命名的開源模型擁有18億個參數,據報導其在各種自然語言任務的表現能與同類型模型抗衡,甚至超越。這使其能夠與微軟、Stability AI和Eleuther AI等知名競爭者一較高下。
此項公告的時機與日益增加的企業對開發消費設備以利用離線生成AI潛力的興趣完美契合。透過使模型在設備上本地運行,使用者可以快速獲得協助,而無需依賴雲端服務。
「我們很高興推出H2O-Danube-1.8B,作為一款適用於行動裝置的可攜帶LLM。小型化、具成本效益的硬體和更有效的訓練技術使中等規模模型更易於取得。我們相信H2O-Danube-1.8B將徹底改變行動離線應用的面貌,」H2O的首席執行官兼共同創辦人Sri Ambati表示。
Danube-1.8B LLM的主要特點
儘管最近才揭曉,H2O堅稱Danube可針對緊湊設備的各種自然語言應用進行微調,包括常識推理、閱讀理解、摘要和翻譯。
為了訓練這個模型,H2O從多種網路來源收集了1兆個標記,並採用從Llama 2和Mistral模型中汲取的先進技術來增強其能力。
「我們調整了Llama 2架構,使其包含約18億個參數。我們使用了Llama 2的分詞器,擁有32,000個詞彙,並訓練該模型以達到16,384的上下文長度。此外,我們還整合了Mistral的滑動窗口注意力機制,大小為4,096,」該公司在Hugging Face上詳細說明。
基準測試顯示,Danube在大多數1-2B參數範圍的模型中表現相當甚至更佳。例如,在評估常識自然語言推理的Hellaswag測試中,其準確率達69.58%,僅次於預訓練於2兆標記的Stability AI的Stable LM 2(擁有16億參數)。在高級問題回答的Arc基準中,Danube位居第三,準確率為39.42%,僅次於微軟的Phi 1.5(13億參數)和Stable LM 2。
無縫導入的工具
Danube-1.8B依據Apache 2.0許可證發布,供商業使用。有興趣將該模型應用於行動裝置的團隊,可以從Hugging Face上下載並針對特定用例進行自定義。
為了促進這一過程,H2O計劃不久後推出其他工具。此外,針對對話應用的調整版本H2O-Danube-1.8B-Chat也已經推出。
從長遠來看,Danube和類似的緊湊模型的推出預期將促進智能手機和筆記本電腦上的離線生成AI應用,提升如電子郵件摘要、打字輔助和圖像編輯等任務的效率。三星已經朝此方向邁出了步伐,推出了S24智能手機系列。