A Zyphra Technologies está lançando um modelo de fundação inovador, projetado para descentralizar ainda mais a inteligência artificial. O Zamba, um modelo de IA de código aberto com 7 bilhões de parâmetros, utiliza os blocos Mamba da empresa e uma camada de atenção compartilhada global. Este modelo inovador visa aprimorar a inteligência em diversos dispositivos, ao mesmo tempo em que reduz significativamente os custos de inferência.
IA para Cada Dispositivo
"Nossa visão é criar sua IA pessoal", afirma Krithik Puthalath, CEO da Zyphra Technologies. "Nossa missão é promover conexões melhores entre as pessoas. Embora a tecnologia e as redes sociais tenham prometido um mundo mais conectado e satisfatório, não alcançamos esse objetivo. Aspirações para transformar o futuro da IA são fundamentais."
Puthalath enfatiza que a centralização da IA por grandes empresas representa um problema crítico. "Na busca pela inteligência geral artificial, empresas como OpenAI e Anthropic desenvolveram modelos monolíticos na nuvem—modelos únicos destinados a todos. Essa abordagem possui limitações, resultando em desconfiança nesses sistemas, fazendo com que a IA pareça impessoal. Embora o ChatGPT ofereça respostas valiosas, falta-lhe verdadeira memória, personalização e capacidade de adaptação ao longo do tempo."
O Valor dos Modelos de Linguagem Menores
O modelo de 7 bilhões de parâmetros da Zyphra pode parecer limitado em comparação com os modelos maiores da OpenAI, Anthropic ou Meta, que possuem dezenas de bilhões. No entanto, a estratégia da Zyphra se concentra na implementação de pequenos modelos de linguagem (SML) para otimizar a integração da IA em dispositivos do dia a dia.
Beren Millidge, co-fundador e cientista-chefe da Zyphra, acredita que, embora seu modelo inicial, BlackMamba, com 1 bilhão de parâmetros, tenha servido como prova de conceito, 7 bilhões de parâmetros são ideais para interações significativas. "Esse tamanho permite a operação local em quase todos os dispositivos", explicou. Em contraste, modelos maiores normalmente exigem clusters de GPU poderosos que são inacessíveis para a maioria dos usuários, reforçando o compromisso da Zyphra com a descentralização.
"Isso se trata de aproximar a IA do usuário", acrescentou Puthalath. "Ao desenvolver modelos menores e eficientes adaptados para casos de uso específicos, habilitamos respostas em tempo real sem depender de infraestrutura em nuvem. Essa abordagem não apenas melhora a experiência do usuário, mas também reduz os custos operacionais, permitindo um maior investimento em inovação."
Competindo com Modelos Estabelecidos
A Zyphra afirma que o Zamba se destaca em comparação com outros modelos de código aberto, como LLaMA 1, LLaMA 2 7B e OLMo-7B, superando-os em vários benchmarks padrão enquanto utiliza menos da metade dos dados de treinamento. Embora os testes iniciais tenham sido realizados internamente, a Zyphra planeja liberar os pesos do modelo para avaliação pública.
Quando questionado sobre o desenvolvimento da arquitetura do Zamba, Millidge compartilhou que sua abordagem se baseia na intuição prática sobre os desafios dos modelos existentes e possíveis soluções. Eles também se inspiraram na neurociência, criando uma estrutura que imita a funcionalidade do cérebro. O Zamba apresenta um único bloco de memória global composto por blocos Mamba, permitindo uma troca eficiente de informações semelhante à interação entre o córtex cerebral e o hipocampo no cérebro humano.
O processo da Zyphra incluiu experimentação significativa. "A intuição sozinha não é suficiente", observou Millidge. "Precisamos realizar experimentos para descobrir o que funciona e o que não funciona, e então iterar de acordo."
O modelo de fundação de código aberto Zamba já está disponível no Hugging Face, convidando os usuários a explorar suas capacidades.