Existem várias abordagens para o ajuste fino, treinamento e inferência de IA na borda. Uma alternativa às GPUs tradicionais é a Unidade de Processamento Neural (NPU) desenvolvida pela Kneron.
Na conferência Computex, em Taiwan, a Kneron apresentou sua tecnologia de silício e servidores de próxima geração, visando aprimorar a inferência e o ajuste fino de IA na borda. Fundada em 2015, a Kneron conta com um seleto grupo de investidores, incluindo Qualcomm e Sequoia Capital. Em 2023, a empresa lançou a NPU KL730 para enfrentar a escassez global de GPUs. Agora, com a introdução da KL830 e uma prévia do próximo modelo KL1140, previsto para 2025, a Kneron também expande sua oferta de servidores de IA com o servidor KNEO 330 Edge GPT, que suporta capacidades de inferência offline.
As inovações da Kneron fazem parte de um grupo nichado, mas crescente, de empresas, como Groq e SambaNova, que buscam alternativas às GPUs para aumentar a eficiência energética das cargas de trabalho de IA.
IA na Borda e LLMs Privados com NPU
Um objetivo significativo da atualização mais recente da Kneron é facilitar servidores GPT privados que possam ser implantados localmente. Isso elimina a dependência de sistemas extensos com conectividade em nuvem, já que o sistema KNEO da Kneron permite inferência local na borda da rede. O CEO Albert Liu revelou que o sistema KNEO 330 integra múltiplos chips de IA KL830 em um servidor compacto, prometendo implantações GPT acessíveis para empresas. O sistema anterior KNEO 300, alimentado pela KL730, já é utilizado por instituições renomadas, como a Universidade de Stanford.
O chip KL830, posicionado entre a KL730 e a futura KL1140, é projetado especificamente para modelos de linguagem, podendo ser cascado para suportar modelos maiores, mantendo baixo consumo de energia.
Novas Ferramentas para Treinamento e Ajuste Fino de IA na Borda
Além do hardware, a Kneron enfatiza as capacidades de software. A empresa desenvolveu diversas ferramentas para treinamento e ajuste fino de modelos projetados para seu hardware. Liu mencionou que a Kneron combina múltiplos modelos abertos, ajustando-os para um desempenho otimizado em NPUs. Além disso, a Kneron agora oferece um compilador neural que permite aos usuários transferir modelos treinados com frameworks como TensorFlow, Caffe ou MXNet diretamente para os chips da Kneron.
Seu hardware também suporta fluxos de trabalho de Geração Aumentada por Recuperação (RAG). Liu destacou que os chips da Kneron utilizam uma arquitetura única que reduz os requisitos de memória para os grandes bancos de dados vetoriais necessários pelo RAG, permitindo que opere de forma eficiente com menor consumo de energia.
A Vantagem Competitiva da Kneron: Baixo Consumo de Energia
Uma característica marcante da tecnologia da Kneron é seu extraordinário baixo consumo de energia. “Acho que a principal diferença é que nosso consumo de energia é tão baixo”, afirmou Liu. A nova KL830 tem um consumo de pico de apenas 2 watts, contando com um poder de cálculo consolidado (CCP) de até 10 eTOPS em processamento de 8 bits. Esse baixo consumo de energia permite que os chips da Kneron sejam integrados em uma variedade de dispositivos, incluindo PCs, sem a necessidade de soluções adicionais de refrigeração.