今天,H2O AI宣布推出Danube,这是一款专为移动设备设计的超轻量大语言模型(LLM)。Danube以欧洲第二长河流命名,拥有18亿个参数,性能与同类模型相当,甚至在多个自然语言任务上表现更佳,与Microsoft、Stability AI和Eleuther AI等知名竞争对手并肩而立。
此次宣布恰逢企业对利用离线生成AI潜力的消费设备越来越感兴趣。通过让模型在设备上本地操作,用户能够快速获得帮助,而不再依赖云服务。
H2O的首席执行官兼联合创始人Sri Ambati表示:“我们非常高兴推出H2O-Danube-1.8B,它是一款适用于移动设备的便携式LLM。随着小型、高性价比硬件和更高效训练技术的发展,中等规模模型变得更加可获取。我们相信,H2O-Danube-1.8B将彻底改变移动离线应用。”
Danube-1.8B LLM的关键特点
尽管刚刚发布,H2O表示Danube可以针对多种自然语言应用在紧凑设备上进行微调,包括常识推理、阅读理解、摘要和翻译。为训练该模型,H2O从多种网络来源收集了万亿个标记,并采用了来自Llama 2和Mistral模型的先进技术来提升其能力。
该公司在Hugging Face上详细说明:“我们将Llama 2架构改进为包含约18亿参数,使用了32,000词汇的Llama 2分词器,并训练模型以达到16,384的上下文长度。此外,我们还结合了大小为4,096的Mistral滑动窗口注意力机制。”
基准测试显示,Danube在许多1-2亿参数范围内的模型中表现相当或更佳。例如,在评估常识自然语言推理的Hellaswag测试中,Danube的准确率达到69.58%,仅次于Stable AI的Stable LM 2,后者有16亿参数并使用了20万亿标记进行预训练。在高级问答的Arc基准测试中,Danube获得第三名,准确率为39.42%,仅次于Microsoft Phi 1.5(有13亿参数)和Stable LM 2。
实现无缝采纳的工具
Danube-1.8B在Apache 2.0许可下发布,允许商业使用。有意在移动应用中实施该模型的团队可以从Hugging Face下载,并根据特定用例进行定制。
为了促进这一过程,H2O计划近期推出更多工具。此外,经过对话优化的模型H2O-Danube-1.8B-Chat也适用于对话相关应用。
长期来看,Danube及类似紧凑模型的推出预计将促进智能手机和笔记本电脑上的离线生成AI应用,提升任务如电子邮件摘要、输入辅助和图像编辑等的效率。三星已经在这一方向迈出了步伐,发布了其S24智能手机系列。