SambaNova Lança Modelo de Composição de Especialistas com 1 Trilhão de Parâmetros para Soluções de IA Generativa Empresarial

A SambaNova Systems revelou um dos maiores modelos de linguagem de grande porte (LLMs) até hoje: o Samba-1, com um trilhão de parâmetros. Diferente do GPT-4 da OpenAI, o Samba-1 não é um modelo único, mas sim uma integração de mais de 50 modelos de IA de alta qualidade por meio da arquitetura Composition of Experts, permitindo personalização e otimização para aplicativos empresariais específicos.

Em setembro, a SambaNova lançou o chip de IA SN40L, projetado para competir com a Nvidia, proporcionando uma solução eficiente para treinamento e inferência. O modelo Samba-1 será incluído na SambaNova Suite, possibilitando que as organizações ajustem e implementem modelos de forma eficaz.

Rodrigo Liang, cofundador e CEO da SambaNova, destacou a importância de oferecer modelos pré-compostos, pré-treinados e pré-otimizados. Esse recurso permite que as empresas realizem implementações de alto desempenho sem a necessidade de ajustes extensivos.

Como o Samba-1 Utiliza a Composition of Experts para Construir um LLM Massivo

O Samba-1 é composto por mais de 50 modelos de IA treinados individualmente e otimizados para coesão. Isso inclui modelos proprietários da SambaNova e modelos de código aberto selecionados, adequados para tarefas específicas, como Llama 2, Mistral, DeepSeek Coder, Falcon, DePlot, CLIP e Llava.

"Selecionamos os melhores modelos, otimizamos e os combinamos em um único modelo de um trilhão de parâmetros", afirmou Liang. Os modelos dentro do Samba-1 podem interagir de forma fluida, permitindo que as respostas de um sirvam como entradas para outros.

Encadear LLMs para gerar saídas não é novidade; tecnologias populares de código aberto, como LangChain, fazem isso. No entanto, Liang assegura que a abordagem Composition of Experts do Samba-1 oferece vantagens significativas. Ao contrário do LangChain, que exige que os usuários predefinam cadeias de modelos, os especialistas do Samba-1 podem ser conectados dinamicamente com base em prompts e respostas, promovendo flexibilidade.

Além disso, o Samba-1 permite que os usuários obtenham diversas perspectivas ao utilizar modelos treinados em diferentes conjuntos de dados. "Ele pode criar dinamicamente 50 equivalentes ao LangChain para explorar resultados variados", ressaltou.

Composition of Experts vs. Mixture of Experts

É fundamental diferenciar a Composition of Experts da abordagem Mixture of Experts utilizada por alguns LLMs, como o Mistral. Liang explicou que uma Mixture of Experts emprega um único modelo treinado em vários conjuntos de dados, o que pode comprometer a privacidade dos dados.

Em contraste, a Composition of Experts mantém a segurança de cada modelo treinando-os em conjuntos de dados separados e seguros. Essa abordagem garante que os protocolos de segurança durante o treinamento se estendam à implementação e à inferência.

Soluções Personalizadas com Mais de um Trilhão de Parâmetros

Embora o Samba-1 tenha um trilhão de parâmetros, as organizações podem não precisar dessa escala para suas implementações. Ao aproveitar múltiplos modelos especializados, o Samba-1 oferece amplas capacidades de forma mais eficiente.

"Nem todo prompt requer a ativação de todos os trilhão de parâmetros de uma vez", explicou Liang. Isso resulta em maior eficiência, redução no uso de energia e largura de banda, e uma pegada operacional mais leve, já que apenas o especialista necessário é acionado.

A SambaNova capacita os clientes a treinar modelos em seus dados proprietários, permitindo que as empresas desenvolvam ativos únicos e otimizados. "Com o Samba-1, você pode ter seu próprio modelo privado de trilhão de parâmetros, e uma vez que ele é treinado com seus dados, ele pertence a você indefinidamente", afirmou Liang.

Most people like

Find AI tools in YBX