随着边缘人工智能(AI)的发展,AI微调、训练和推理的多种方法应运而生。Kneron开发的神经处理单元(NPU)作为传统GPU的替代方案,正逐步引领市场。
Kneron的最新进展
在台湾的Computex展会上,Kneron发布了其下一代硅片和服务器技术,旨在提升边缘AI推理和微调能力。自2015年成立以来,Kneron获得了包括高通和红杉资本在内的知名投资者的支持。2023年,该公司推出了KL730 NPU,以应对全球GPU短缺问题。如今,随着KL830的发布和2025年即将推出的KL1140预览,Kneron还扩展了其AI服务器产品线,推出支持离线推理的KNEO 330 Edge GPT服务器。
Kneron的创新不仅限于自身,还与少数其他公司,如Groq和SambaNova,一起寻找提升AI工作负载能效的GPU替代方案。
边缘AI与私有LLM
Kneron近期更新的一个重要目标是开发可以本地部署的私有GPT服务器。这将使组织无需依赖庞大的云端系统,因为Kneron KNEO系统能够在网络边缘进行本地推理。
Kneron首席执行官刘阿尔伯特表示,KNEO 330系统将多个KL830边缘AI芯片集成于一个紧凑的服务器中,为企业提供了经济实惠的本地GPT部署方案。早期的KNEO 300系统,基于KL730,已被斯坦福大学等知名机构广泛采用。
KL830芯片的设计介于之前的KL730和未来的KL1140之间,特别针对语言模型进行了优化。它可级联以支持更大的模型,同时保持低功耗。
新工具助力边缘AI训练与微调
除了硬件,Kneron还注重软件能力的提升。公司开发了多种工具,用于在其硬件上训练及微调模型。刘阿尔伯特提到,Kneron结合了多种开放模型,并对其进行了微调,以实现最佳的NPU性能。
此外,Kneron还提供了一种神经编译器,用户可以将使用TensorFlow、Caffe或MXNet等框架训练的模型直接移植到Kneron芯片上。他们的硬件还支持增强检索生成(RAG)工作流。刘指出,Kneron的芯片采用独特架构,降低了RAG所需的大型向量数据库的内存需求,使其能以更低功耗高效运行。
Kneron的竞争优势:低功耗
Kneron技术的一大亮点是其极低的功耗。“我认为主要的差别在于我们的功耗非常低,”刘表示。新推出的KL830的峰值功耗仅为2瓦特,在8位处理下最高可达10 eTOPS的整合计算能力(CCP)。这种低功耗使Kneron的芯片能够被集成到包括个人电脑在内的多种设备中,无需额外的冷却解决方案。
通过这些创新,Kneron正在为边缘AI提供更加高效和可持续的解决方案。