赫爾辛基的人工智慧創業公司 Silo AI 本週推出了 Poro,這是一個專注於提升歐洲語言多語言 AI 能力的開源大型語言模型(LLM),引起了廣泛關注。Poro 是一系列開源模型的首個產品,旨在支持所有 24 種歐盟官方語言。該模型由 Silo AI 的生成式 AI 分部 SiloGen 開發,並與土爾庫大學的 TurkuNLP 研究小組合作,預計將在整個歐洲改變語言處理方式。
Silo AI 執行長彼得·薩爾林(Peter Sarlin)表示:“這是數位主權的問題。我們希望模型能體現歐洲的價值、文化和語言。我們的目標是幫助歐洲公司和任何組織創建專屬模型,讓其在歐洲內部保持價值。”
Poro 34B 模型擁有 342 億個參數,其名稱源自芬蘭語「馴鹿」。該模型採用 BLOOM 變壓器架構和 ALiBi 嵌入技術,並在 21 萬億多語言標記的多樣化數據集上進行訓練,涵蓋英語、芬蘭語及 Python 和 Java 等編程語言。
Poro 正在芬蘭卡亞尼的 LUMI 超級電腦上進行訓練,這是歐洲最強大的超級電腦,配備 512 個 AMD Instinct MI250X GPU,計算能力達到 74 petaflops。
薩爾林強調,Poro 解決了重要挑戰:為資源較少的歐洲語言(如芬蘭語)訓練有效的自然語言模型。該模型採用了跨語言訓練策略,利用英語等資源豐富的語言數據。
Poro 是繼法國創業公司 Mistral AI 的資金充足的 Mistral 7B 之後,第二個重大的由歐洲推出的開源大型語言模型。它的推出凸顯了歐洲在快速發展的生成式 AI 領域中的日益影響力,以及各種 AI 研究和開發機構之間日益激烈的競爭。
Poro 研究檢查點
SiloGen 通過 Poro 研究檢查點計劃致力於透明性,記錄模型的訓練過程。薩爾林解釋道:“我們將在訓練過程中釋出檢查點,這是一種相對較新的方法。這種模型訓練的透明性並不常見。”
Poro 34B 的初始檢查點捕捉了其訓練的前 30%。初步基準顯示,Poro 在這一階段已經實現了最先進的成果。在芬蘭語的 FIN-bench 評估中,Poro 超越了專門的單語芬蘭模型,如 FinGPT。
薩爾林指出:“該模型在低資源語言方面表現出色,僅有 30% 的訓練完成。”通過識別相關語言之間的共同模式,即使在訓練數據有限的情況下,Poro 也能卓越表現。
令人印象深刻的是,Poro 的多語言能力並未影響其在英語方面的表現。測試顯示,它在芬蘭語基準測試中超過了現有模型,有望達到或超越英語性能。
開源替代方案
薩爾林主張如 Poro 這樣的開源模型是未來 AI 的方向,提供透明且道德的替代方案以對抗科技巨頭的專有模型。“我相信我們會看到大量的開源替代品出現,”他表示。“安全的未來在於開源,能清楚地看到模型的構建和架構。”
他補充說,已經做出重大努力,以確保數據和模型在設計上遵循監管標準。Silo AI 計劃在訓練過程中定期釋出 Poro 檢查點,旨在為所有歐洲語言建立一個龐大的開源模型系列。
與土爾庫大學的合作
Poro 的開發體現了 Silo AI 與土爾庫大學之間富有成效的合作,該大學的 TurkuNLP 研究小組已為芬蘭語開創了開源資源。薩爾林表示:“我的研究小組與幾位教授共同努力,利用收入資金推動公司擴展。”他指出,該公司擁有 300 多名員工,其中大多數擁有與 AI 相關的博士學位,與行業中的許多其他公司相比有著顯著差異。
這一合作融合了 Silo AI 在實用 AI 領域的專業知識與大學在多語言建模研究方面的領導地位,展示了在提升低資源歐洲語言的 AI 能力方面有效的產學合作模式。
歐洲是否準備領袖開源 AI?
Poro 的推出標誌著自然語言處理領域開放合作和透明度的全新階段。像 Poro 研究檢查點這樣的舉措提供了以前由大型科技公司壟斷的見解和資源。
薩爾林表示:“我們與客戶如安聯(Allianz)、羅爾斯·羅伊斯(Rolls Royce)、本田(Honda)和飛利浦(Philips)合作,我們聽到了大型企業對未來法規和可使用模型的擔憂。”
如果 Poro 能夠實現其潛能,將能夠使強大的多語言模型的訪問更加民主化,為歐洲提供一個原生的替代方案,對抗美國科技巨頭。儘管仍在初期階段,Poro 代表了邁向使語言 AI 可獲得和開放的重要一步,將其從專有的孤島推向公共領域。