AI21 Labs Potencializa Transformadores de IA Generativa com Colaboração Jamba

Home Notícias de IA AI21 Labs Potencializa Transformadores de IA Generativa com Colaboração Jamba

Desde a publicação do artigo de pesquisa pioneiro "Attention is All You Need" em 2017, os transformers se tornaram protagonistas no cenário da IA generativa. No entanto, eles não são a única abordagem viável. A AI21 Labs apresentou uma nova estrutura chamada “Jamba”, que busca ir além dos transformers tradicionais.

Jamba combina o modelo Mamba, baseado no Structured State Space model (SSM), com a arquitetura transformer para criar uma solução otimizada em IA generativa. O termo "Jamba" representa Joint Attention and Mamba Architecture, projetada para aproveitar as forças tanto do SSM quanto dos transformers. Este modelo foi lançado como código aberto sob a licença Apache 2.0.

Embora Jamba não esteja destinado a substituir os modelos de linguagem de grande porte (LLMs) baseados em transformers, espera-se que sirva como um complemento valioso em aplicações específicas. A AI21 Labs afirma que Jamba pode superar os modelos de transformer tradicionais em tarefas de raciocínio generativo, como demonstrado em benchmarks como HellaSwag. No entanto, ainda não supera modelos transformer em benchmarks críticos, como o Massive Multitask Language Understanding (MMLU), que avalia capacidades de resolução de problemas.

A AI21 Labs é especializada em IA generativa para aplicações empresariais e levantou recentemente $155 milhões em agosto de 2023 para impulsionar suas iniciativas. Entre suas ofertas para empresas está o Wordtune, uma ferramenta projetada para ajudar organizações a gerar conteúdo que se alinhe ao seu tom e marca. A empresa relatou em 2023 que competiu com sucesso contra o gigante da IA generativa OpenAI na conquista de clientes empresariais.

Tradicionalmente, a tecnologia LLM da AI21 Labs utilizou arquitetura transformer, incluindo sua família de LLMs Jurassic-2, parte da plataforma de processamento de linguagem natural (NLP) AI21 Studio, disponível via APIs para integração empresarial. No entanto, Jamba representa uma mudança em direção a um modelo híbrido de SSM e transformer.

Apesar do papel proeminente dos transformers na IA generativa, eles apresentam limitações. Um problema significativo é que, à medida que as janelas de contexto se expandem, a inferência tende a desacelerar. Como explicam os pesquisadores da AI21 Labs, o mecanismo de atenção de um transformer escala com o comprimento da sequência, resultando em uma redução do throughput, já que cada token depende da sequência inteira anterior. Isso torna aplicações de longo contexto ineficientes.

Outro desafio envolve a grande quantidade de memória necessária para escalar transformers. Seus requisitos de memória aumentam com o comprimento do contexto, dificultando o processamento de longos contextos ou múltiplas tarefas paralelas sem recursos de hardware consideráveis. A abordagem do SSM busca resolver essas questões de contexto e memória.

A arquitetura Mamba SSM, originalmente desenvolvida por pesquisadores das universidades Carnegie Mellon e Princeton, foi projetada para exigir menos memória e utilizar um mecanismo de atenção diferente para gerenciar grandes janelas de contexto. Contudo, enfrenta dificuldades em alcançar a mesma qualidade de saída que os modelos transformer. A abordagem híbrida de Jamba combina a otimização de recursos e contexto do SSM com as capacidades de saída dos transformers.

A AI21 Labs afirma que o modelo Jamba possui uma janela de contexto de 256K e oferece um throughput três vezes maior em contextos longos em comparação ao Mixtral 8x7B. Notavelmente, Jamba se posiciona como o único modelo em sua classe de tamanho capaz de acomodar até 140K de contexto em uma única GPU.

Assim como o Mixtral, Jamba incorpora um modelo Mixture of Experts (MoE), mas utiliza o MoE dentro de sua estrutura híbrida SSM transformer, permitindo níveis mais altos de otimização. Especificamente, as camadas MoE do Jamba ativam apenas 12 bilhões de seus 52 bilhões de parâmetros disponíveis durante a inferência, tornando-o mais eficiente que um modelo apenas transformer de tamanho equivalente, segundo a AI21 Labs.

Atualmente, Jamba está em seus estágios iniciais e ainda não faz parte das ofertas empresariais da AI21 Labs, embora a empresa planeje lançar uma versão instrucional na Plataforma AI21 em beta em breve.

MineOS Lança a 'Caixa Preta' de IA para Empresas: Aumentando a Transparência e a Compreensão

Microsoft Lança Novas Ferramentas de AI no Azure para Mitigar Riscos na Segurança e Confiabilidade de LLMs

Most people like

Brainboard

62.7K

No cenário digital atual, a demanda por infraestrutura em nuvem robusta está crescendo rapidamente. Nossa plataforma de IA para design de infraestrutura em nuvem utiliza algoritmos avançados para otimizar o processo de desenvolvimento, permitindo que as empresas criem soluções em nuvem escaláveis, eficientes e seguras. Ao aproveitar a inteligência artificial, capacitamos as organizações a otimizar sua infraestrutura, reduzir custos e melhorar o desempenho, garantindo que fiquem à frente em um mercado cada vez mais competitivo. Descubra como nossa abordagem impulsionada por IA pode transformar suas estratégias em nuvem para o futuro.

infraestrutura em nuvem AI Website Designer

LustGF

21.1K

Projete seu companheiro virtual ideal hoje! Experimente o futuro da tecnologia ao customizar um amigo digital que atenda às suas necessidades e preferências únicas. Mergulhe em um mundo onde conexão e personalização se unem para aprimorar suas interações virtuais. Sua jornada para criar o companheiro perfeito começa agora!

namorada de IA NSFW

NSFWChatAI

Bem-vindo ao NSFWChatAI.ai, a plataforma definitiva de chatbots de namorada virtual baseada em IA, onde você pode ter conversas sem restrições com sua companheira virtual. Aproveite a liberdade de conversar sem limites em um ambiente seguro e interativo!

namorada virtual AI Photo & Image Generator

Convex

301.7K

Descubra o poder de uma plataforma fullstack TypeScript projetada especificamente para o desenvolvimento de aplicações altamente responsivas. Com suas capacidades robustas, essa plataforma capacita os desenvolvedores a criar experiências de usuário dinâmicas e interativas de forma integrada, aprimorando tanto o desenvolvimento front-end quanto back-end. Desbloqueie o potencial da programação reativa com um framework TypeScript eficaz e eficiente!

TypeScript AI Product Description Generator

Find AI tools in YBX