Existen múltiples enfoques para el ajuste fino, entrenamiento e inferencia de IA en el borde. Una alternativa a las GPU tradicionales es la Unidad de Procesamiento Neural (NPU) desarrollada por Kneron.
En la conferencia Computex en Taiwán, Kneron presentó su tecnología de silicio y servidores de próxima generación, diseñada para mejorar la inferencia y el ajuste fino de IA en el borde. Fundada en 2015, Kneron cuenta con un destacado grupo de inversores, incluidos Qualcomm y Sequoia Capital. En 2023, la empresa lanzó la NPU KL730 para abordar la escasez global de GPU. Ahora, con la introducción de la KL830 y un adelanto de la próxima KL1140 que saldrá en 2025, Kneron también está ampliando su oferta de servidores de IA con el servidor KNEO 330 Edge GPT, que admite capacidades de inferencia offline.
Las innovaciones de Kneron forman parte de un grupo especializado y en expansión, que incluye a Groq y SambaNova, que buscan alternativas a las GPU para mejorar la eficiencia energética de las cargas de trabajo de IA.
IA en el Borde y LLMs Privados Impulsados por NPUs
Un objetivo importante de la última actualización de Kneron es facilitar servidores GPT privados capaces de implementación local. Esto elimina la necesidad de que las organizaciones dependan de sistemas extensos con conectividad en la nube, ya que el sistema KNEO de Kneron permite la inferencia local directamente en el borde de la red.
El CEO Albert Liu compartió que el sistema KNEO 330 integra múltiples chips de IA K830 en un servidor compacto, prometiendo despliegues de GPT asequibles para empresas. El sistema anterior KNEO 300, impulsado por la KL730, ya es utilizado por instituciones destacadas como la Universidad de Stanford.
El chip KL830, situado entre la KL730 y la futura KL1140, está específicamente diseñado para modelos de lenguaje. Puede ser encadenado para soportar modelos más grandes mientras asegura un bajo consumo energético.
Nuevas Herramientas para el Entrenamiento y Ajuste Fino de IA en el Borde
Además del hardware, Kneron enfatiza las capacidades de software. La empresa ha desarrollado diversas herramientas para el entrenamiento y ajuste fino de modelos diseñados para su hardware. Liu mencionó que Kneron combina múltiples modelos abiertos, ajustándolos para un rendimiento óptimo en NPUs.
Además, Kneron ahora ofrece un compilador neuronal que permite a los usuarios transferir modelos entrenados con marcos como TensorFlow, Caffe o MXNet directamente a los chips de Kneron. Su hardware también es compatible con flujos de trabajo de Generación Aumentada por Recuperación (RAG). Liu destacó que los chips de Kneron emplean una arquitectura única que reduce los requisitos de memoria para las grandes bases de datos vectoriales necesarias por RAG, permitiendo un funcionamiento eficiente con un menor consumo energético.
La Ventaja Competitiva de Kneron: Bajo Consumo Energético
Una característica destacada de la tecnología de Kneron es su notable bajo consumo energético. "Creo que la principal diferencia es que nuestro consumo de energía es tan bajo", declaró Liu.
La nueva KL830 tiene un consumo máximo de solo 2 vatios, con una potencia de cálculo consolidada (CCP) de hasta 10 eTOPS en procesamiento de 8 bits. Este bajo consumo permite que los chips de Kneron se integren en una variedad de dispositivos, incluidos PCs, sin necesidad de soluciones de refrigeración adicionales.