Stability AI 推出高效緊湊的 16 億語言模型:創新新時代的開端

大型語言模型(LLMs)的尺寸影響力

對於大型語言模型(LLMs)而言,尺寸至關重要,因為這決定了模型能有效運作的範圍。

Stability AI(Stability AI)以其Stable Diffusion文本生成影像的技術而聞名,剛推出其最小的模型之一:Stable LM 2 1.6B。這款文本內容生成模型於2023年4月首次亮相,提供3億和7億參數版本。1.6B模型是該公司在2024年的第二次發布,早於此之前發表的是Stability AI的Stable Code 3B。

介紹緊湊型Stable LM 2模型

新的Stable LM 2 1.6B旨在降低開發者的進入門檻,加速參與生成型AI生態系統。這款緊湊但強大的模型支持七種語言的多語言文本生成,包括英語、西班牙語、德語、意大利語、法語、葡萄牙語和荷蘭語。它利用最新的算法語言建模進行優化,實現速度與性能的良好平衡。

Stability AI的語言團隊負責人卡洛斯·里奎爾梅(Carlos Riquelme)表示,“一般來說,使用相似數據訓練的大型模型表現會優於小型模型。然而,隨著模型採用更優化的算法並使用高質量數據,我們經常看到小型模型超越舊版的更大型號。”

為何小型模型能超越大型模型

根據Stability AI的說法,Stable LM 2 1.6B在多個基準測試中超越了許多參數少於20億的小型語言模型,包括微軟的Phi-2(2.7B)、TinyLlama 1.1B和Falcon 1B。值得一提的是,它也超越了Stability AI自己早期的Stable LM 3B型號。

里奎爾梅指出,“Stable LM 2 1.6B的表現超過了一些幾個月前訓練的大型模型。就像計算技術一樣,我們看到模型隨著時間越來越小、越來越精簡且表現更佳。”

認識限制

儘管小型的Stable LM 2 1.6B擁有令人印象深刻的功能,但其尺寸確實帶來一些限制。Stability AI警告道,“由於小型、低容量語言模型的內在特性,Stable LM 2 1.6B可能會出現較高的幻覺率或潛在的有害語言等常見問題。”

透明性與增強數據訓練

Stability AI在過去幾個月專注於研發更小但更強大的LLM選擇。在2023年12月,它發布了StableLM Zephyr 3B模型,在比初始版本更小的框架內提高了性能。

里奎爾梅解釋道,新款Stable LM 2模型利用更多數據,整合英語以外的六種語言的多語言文件。他強調數據在訓練過程中展示的順序重要,建議不同訓練階段的多樣數據類型可能改善結果。

為進一步促進開發,Stability AI將這些模型以預訓練和微調格式發布,並附上研究人員所描述的“在預訓練冷卻前的最後模型檢查點”。

“我們的目標是為開發者提供工具,以便他們在現有模型的基礎上創新和建設,”里奎爾梅表示。“我們提供一個特定的半成品模型供實驗使用。”

他詳細說明了訓練過程,解釋模型隨著更新而提高的性能。最初的模型缺乏知識,而後續版本則從數據中積累見解。然而,里奎爾梅也指出模型在訓練結束時可能變得不夠靈活。

“我們決定以預終訓練形式提供該模型,讓用戶更容易針對不同任務或數據集進行專業化。雖然我們不能保證成功,但我們相信人們會以創意的方式使用新工具。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles