Silo AI推出Poro:为欧洲量身定制的新型开源语言模型

芬兰赫尔辛基的人工智能初创企业Silo AI本周引发热议,推出了Poro——一个专注于提升欧洲多语言AI能力的开源大型语言模型(LLM)。Poro是针对欧盟24种官方语言的系列开源模型的首个产品,由Silo AI的生成AI部门SiloGen与土耳其大学的TurkuNLP研究小组合作开发,旨在彻底改变整个欧洲的语言处理方式。

“这是一个数字主权的问题,”Silo AI首席执行官彼得·萨林表示。“我们希望构建体现欧洲价值观、文化和语言的模型。我们的目标是让欧洲企业以及任何组织都能创建具有自主知识产权的模型,从而在欧洲保持其价值。”

Poro 34B模型参数量达到342亿,得名于芬兰语中的“驯鹿”。它采用BLOOM变换器架构,结合ALiBi嵌入技术,训练数据集包含了21万亿个多语言标记,涵盖英语、芬兰语以及Python和Java等编程语言。

Poro的训练在位于芬兰卡亚尼的LUMI超级计算机上进行,LUMI是欧洲最强大的超级计算机,配备512个AMD Instinct MI250X GPU,具备74拍的计算能力。萨林强调,Poro针对的是一个重要挑战,即为资源匮乏的欧洲语言(如芬兰语)训练有效的自然语言模型。该模型采用跨语言训练策略,利用英语等资源丰富语言的数据。

Poro是继法国初创企业Mistral AI推出的高融资Mistral 7B后,欧洲推出的第二个大型开源LLM。它的发布凸显了欧洲在快速发展的生成AI领域日益增长的影响力,也显示了各类AI研究开发机构之间日益激烈的竞争。

Poro研究检查点

SiloGen致力于通过Poro研究检查点计划实现透明化,记录模型的训练过程。萨林解释道:“我们将在训练过程中发布检查点,这是一种相对较新的方法。模型训练的透明化是很少见的。”

Poro 34B的初始检查点捕捉了其训练的前30%。初步基准表明,Poro在这一阶段已达到最先进的结果。在芬兰语的FIN-bench评估中,Poro超越了专门的单语芬兰模型FinGPT。萨林指出:“该模型在仅完成30%的训练时就展示了对低资源语言的优越性能。”通过识别相关语言的共性,这一模型即使在训练数据有限时也能表现出色。

值得注意的是,Poro的多语言能力并不妨碍其在英语上的表现。测试结果显示,Poro在芬兰语基准上超越了现有模型,并有望与英语表现持平或超过。

大科技公司之外的开源替代方案

萨林倡导像Poro这样的开源模型作为AI的未来,旨在为用户提供一个透明且伦理的替代方案。他表示:“我相信我们将看到许多开源替代品的涌现。最安全的未来是建立在开源基础之上,能够清晰地了解模型的构造和架构。”

他补充道,已经做出重大努力,确保数据和模型在设计上遵循监管标准。Silo AI计划在整个训练过程中定期发布Poro检查点,旨在为所有欧洲语言建立一个庞大的开源模型家族。

与土耳其大学的合作

Poro的开发体现了Silo AI与土耳其大学之间的成功合作,TurkuNLP的研究人员在芬兰语言的开源资源开发方面处于领先地位。萨林分享道:“我的研究小组与几位教授携手,通过收入资金推动公司发展。我们的300多名员工中,大多数拥有AI相关领域的博士学位,这使得我们与行业中的许多其他公司有很大不同。”

这种合作将Silo AI的实践AI专业知识与大学在多语言建模研究方面的领先地位相结合,展示了加强对资源匮乏欧洲语言的AI能力提升的有效产学合作模式。

欧洲是否准备在开源AI方面领先?

Poro的发布标志着自然语言处理领域开放合作和透明性的新阶段。类似Poro研究检查点的计划,为过去被大型科技公司垄断的洞察和资源铺平了道路。

萨林表示:“我们与德国安联、劳斯莱斯、本田和飞利浦等客户合作,听到了大型企业对未来法规及其可使用模型的担忧。”如果Poro能够实现其潜力,它将使强大的多语言模型的获取变得民主化,让欧洲在面对美资科技巨头时拥有本土替代方案。尽管为时尚早,Poro代表了让语言AI变得更加开放和可获取的重要一步,从封闭的专有体系走向公众领域。

Most people like

Find AI tools in YBX