Il existe plusieurs approches pour le fine-tuning, l'entraînement et l'inférence de l'IA à la périphérie. Une alternative aux GPU traditionnels est l'Unité de Traitement Neural (NPU) développée par Kneron.
Lors de la conférence Computex à Taïwan, Kneron a dévoilé sa technologie de silicium et de serveur de nouvelle génération visant à améliorer l'inférence et le fine-tuning de l'IA en périphérie. Fondée en 2015, Kneron attire des investisseurs de renom tels que Qualcomm et Sequoia Capital. En 2023, l'entreprise a lancé le KL730 NPU pour pallier la pénurie mondiale de GPU. Avec l'introduction du KL830 et un aperçu du prochain KL1140 prévu pour 2025, Kneron élargit également ses offres de serveurs IA avec le serveur KNEO 330 Edge GPT, qui prend en charge les capacités d'inférence hors ligne.
Les innovations de Kneron font partie d'un groupe de sociétés, comme Groq et SambaNova, qui cherchent des alternatives aux GPU pour améliorer l'efficacité énergétique des charges de travail d'IA.
IA en Périphérie et LLM Privés Alimentés par NPUs
Un des objectifs majeurs de la dernière mise à jour de Kneron est de faciliter les serveurs GPT privés pouvant être déployés en interne. Cela permet aux organisations de ne plus dépendre de systèmes complexes nécessitant une connectivité cloud, le système KNEO de Kneron permettant l'inférence directement à la périphérie du réseau.
Le PDG Albert Liu a partagé que le système KNEO 330 intègre plusieurs puces AI KL830 dans un serveur compact, promettant des déploiements GPT abordables en interne pour les entreprises. L'ancien système KNEO 300, propulsé par le KL730, est déjà utilisé par des institutions majeures telles que l'Université de Stanford.
Le chip KL830, situé entre le KL730 précédent et le KL1140 futur, est spécialement conçu pour les modèles linguistiques. Il peut être en cascade pour supporter des modèles plus grands tout en garantissant une faible consommation d'énergie.
Nouveaux Outils pour l’Entraînement et le Fine-Tuning de l’IA en Périphérie
En plus du matériel, Kneron met l'accent sur les capacités logicielles. L'entreprise a développé divers outils pour l'entraînement et le fine-tuning des modèles conçus pour son matériel. Liu a mentionné que Kneron combine plusieurs modèles ouverts, les ajustant pour des performances optimales sur les NPUs.
De plus, Kneron propose désormais un compilateur neuronal permettant aux utilisateurs de transférer des modèles entraînés avec des frameworks tels que TensorFlow, Caffe ou MXNet directement sur les puces Kneron. Leur matériel prend également en charge les flux de travail de Génération Augmentée par Récupération (RAG). Liu a souligné que les puces de Kneron utilisent une architecture unique qui réduit les exigences de mémoire pour les grandes bases de données de vecteurs nécessaires par RAG, leur permettant de fonctionner de manière efficace avec une consommation d'énergie réduite.
L'Avantage Concurrentiel de Kneron : Faible Consommation d'Énergie
Une caractéristique remarquable de la technologie de Kneron est sa consommation d'énergie extrêmement faible. « Je pense que la principale différence est que notre consommation d'énergie est tellement basse », a déclaré Liu. Le nouveau KL830 a une consommation d'énergie maximale de seulement 2 watts, affichant une puissance de calcul consolidée (CCP) allant jusqu'à 10 eTOPS dans un traitement 8 bits. Cette faiblesse de consommation d'énergie permet l'intégration des puces de Kneron dans divers appareils, y compris les PC, sans besoin de solutions de refroidissement supplémentaires.