邊緣人工智慧的微調、訓練和推論有多種方法。其中一個替代傳統GPU的選擇是由Kneron開發的神經處理單元(NPU)。
在台灣的Computex大會上,Kneron推出了其下一代矽晶片和伺服器技術,旨在增強邊緣AI的推論和微調。Kneron成立於2015年,擁有包括Qualcomm和Sequoia Capital在內的知名投資者。2023年,該公司推出了KL730 NPU,以應對全球GPU短缺。如今,隨著KL830的推出和預告將於2025年發布的KL1140,Kneron也在擴展其AI伺服器系列,推出支持離線推論功能的KNEO 330 Edge GPT伺服器。
Kneron的創新屬於一個小型但不斷擴張的企業群體,包括Groq和SambaNova,這些公司尋求替代GPU的方法,以提高AI工作負載的能源效率。
由NPU驅動的邊緣AI與私有LLM
Kneron最新更新的一個重要目標是促進能夠進行本地部署的私有GPT伺服器,這樣組織就不必依賴需要雲連接的龐大系統,因為Kneron KNEO系統可在網路邊緣進行本地推論。
CEO劉建國(Albert Liu)表示,KNEO 330系統將多個KL830邊緣AI晶片整合到一個緊湊的伺服器中,為企業提供高性價比的本地GPT部署。早期的KNEO 300系統則由KL730驅動,並已被斯坦福大學等主要機構採用。
KL830晶片位於前一代KL730和未來KL1140之間,專門設計用於語言模型。它可以串接使用,以支持更大模型,同時確保低功耗。
邊緣AI訓練和微調的新工具
除了硬體,Kneron還強調軟體能力。公司開發了多種工具,專為其硬體進行模型的訓練和微調。劉建國提到,Kneron結合多個開放模型,對其進行微調,以獲得最佳的NPU性能。
此外,Kneron現在還提供一個神經編譯器,使用戶能夠將使用TensorFlow、Caffe或MXNet等框架訓練的模型直接轉移到Kneron晶片上。
他們的硬體還支持檢索增強生成(RAG)工作流。劉強調,Kneron的晶片採用獨特架構,減少了RAG所需的大型向量數據庫的內存需求,使其能在更低的功耗下高效運行。
Kneron的競爭優勢:低功耗
Kneron技術的一個突出特點是其極低的功耗。劉建國表示:“我認為主要區別在於我們的功耗非常低。” 新的KL830峰值功耗僅為2瓦,在8位處理時具備最高10 eTOPS的集成計算能力(CCP)。這種低功耗使Kneron的晶片能夠整合到各種設備中,包括PC,而不需要額外的冷卻解決方案。