Desde a publicação do artigo de pesquisa pioneiro "Attention is All You Need" em 2017, os transformers se tornaram protagonistas no cenário da IA generativa. No entanto, eles não são a única abordagem viável. A AI21 Labs apresentou uma nova estrutura chamada “Jamba”, que busca ir além dos transformers tradicionais.
Jamba combina o modelo Mamba, baseado no Structured State Space model (SSM), com a arquitetura transformer para criar uma solução otimizada em IA generativa. O termo "Jamba" representa Joint Attention and Mamba Architecture, projetada para aproveitar as forças tanto do SSM quanto dos transformers. Este modelo foi lançado como código aberto sob a licença Apache 2.0.
Embora Jamba não esteja destinado a substituir os modelos de linguagem de grande porte (LLMs) baseados em transformers, espera-se que sirva como um complemento valioso em aplicações específicas. A AI21 Labs afirma que Jamba pode superar os modelos de transformer tradicionais em tarefas de raciocínio generativo, como demonstrado em benchmarks como HellaSwag. No entanto, ainda não supera modelos transformer em benchmarks críticos, como o Massive Multitask Language Understanding (MMLU), que avalia capacidades de resolução de problemas.
A AI21 Labs é especializada em IA generativa para aplicações empresariais e levantou recentemente $155 milhões em agosto de 2023 para impulsionar suas iniciativas. Entre suas ofertas para empresas está o Wordtune, uma ferramenta projetada para ajudar organizações a gerar conteúdo que se alinhe ao seu tom e marca. A empresa relatou em 2023 que competiu com sucesso contra o gigante da IA generativa OpenAI na conquista de clientes empresariais.
Tradicionalmente, a tecnologia LLM da AI21 Labs utilizou arquitetura transformer, incluindo sua família de LLMs Jurassic-2, parte da plataforma de processamento de linguagem natural (NLP) AI21 Studio, disponível via APIs para integração empresarial. No entanto, Jamba representa uma mudança em direção a um modelo híbrido de SSM e transformer.
Apesar do papel proeminente dos transformers na IA generativa, eles apresentam limitações. Um problema significativo é que, à medida que as janelas de contexto se expandem, a inferência tende a desacelerar. Como explicam os pesquisadores da AI21 Labs, o mecanismo de atenção de um transformer escala com o comprimento da sequência, resultando em uma redução do throughput, já que cada token depende da sequência inteira anterior. Isso torna aplicações de longo contexto ineficientes.
Outro desafio envolve a grande quantidade de memória necessária para escalar transformers. Seus requisitos de memória aumentam com o comprimento do contexto, dificultando o processamento de longos contextos ou múltiplas tarefas paralelas sem recursos de hardware consideráveis. A abordagem do SSM busca resolver essas questões de contexto e memória.
A arquitetura Mamba SSM, originalmente desenvolvida por pesquisadores das universidades Carnegie Mellon e Princeton, foi projetada para exigir menos memória e utilizar um mecanismo de atenção diferente para gerenciar grandes janelas de contexto. Contudo, enfrenta dificuldades em alcançar a mesma qualidade de saída que os modelos transformer. A abordagem híbrida de Jamba combina a otimização de recursos e contexto do SSM com as capacidades de saída dos transformers.
A AI21 Labs afirma que o modelo Jamba possui uma janela de contexto de 256K e oferece um throughput três vezes maior em contextos longos em comparação ao Mixtral 8x7B. Notavelmente, Jamba se posiciona como o único modelo em sua classe de tamanho capaz de acomodar até 140K de contexto em uma única GPU.
Assim como o Mixtral, Jamba incorpora um modelo Mixture of Experts (MoE), mas utiliza o MoE dentro de sua estrutura híbrida SSM transformer, permitindo níveis mais altos de otimização. Especificamente, as camadas MoE do Jamba ativam apenas 12 bilhões de seus 52 bilhões de parâmetros disponíveis durante a inferência, tornando-o mais eficiente que um modelo apenas transformer de tamanho equivalente, segundo a AI21 Labs.
Atualmente, Jamba está em seus estágios iniciais e ainda não faz parte das ofertas empresariais da AI21 Labs, embora a empresa planeje lançar uma versão instrucional na Plataforma AI21 em beta em breve.