Meta Lança Megalodon LLM, Desafiando a Arquitetura Transformer

Um novo modelo de aprendizado de máquina desenvolvido por pesquisadores da Meta e da Universidade do Sul da Califórnia aborda desafios cruciais associados à arquitetura Transformer, que tem sido fundamental para o avanço dos grandes modelos de linguagem (LLMs). Nomeado Megalodon, o modelo estende significativamente a janela de contexto para milhões de tokens, minimizando o uso de memória. Experimentos indicam que o Megalodon se destaca em comparação com modelos Transformer similares ao lidar com textos extensos, posicionando-o como um potencial sucessor da arquitetura Transformer.

Entendendo Janelas de Contexto

A "janela de contexto" refere-se ao número de tokens que um modelo pode processar simultaneamente. Uma janela de contexto mais ampla melhora a capacidade dos LLMs de engajar em conversas mais longas, analisar documentos extensos e aprimorar o aprendizado em contexto. No entanto, o aumento da janela de contexto de um Transformer acarreta um custo computacional significativo. A arquitetura Transformer opera com "complexidade quadrática", significando que dobrar o tamanho da entrada quadruplica tanto a memória quanto o tempo de computação necessários. Essa relação surge do mecanismo de autoatenção, onde cada elemento da sequência de entrada é comparado a todos os outros.

O Megalodon da Meta baseia-se na técnica Moving Average Equipped Gated Attention (MEGA), introduzida em 2022, que otimiza o mecanismo de atenção, reduzindo consideravelmente a complexidade do modelo. Isso permite que o LLM manipule entradas mais longas sem demandar memória excessiva. A MEGA incorpora média móvel exponencial (EMA) para equilibrar a importância das relações de tokens locais e de longo alcance, garantindo coerência à medida que o contexto se expande.

Inovações Chave no Megalodon

O Megalodon aprimora a MEGA por meio de várias modificações arquitetônicas que alinham seu desempenho ao mecanismo de atenção total tradicional dos Transformers. Ele utiliza "atenção em blocos", dividindo sequências de entrada em blocos fixos, transformando a complexidade de quadrática para linear. Essa abordagem também facilita um paralelismo adicional, acelerando o treinamento do modelo.

Pesquisadores treinaram uma versão de 7 bilhões de parâmetros do Megalodon em 2 trilhões de tokens, comparando-a com os modelos Llama-2-7B e 13B. Os resultados mostram que o Megalodon-7B supera os Transformers de ponta usados no treinamento do Llama-2-7B em perplexidade de treinamento e em várias tarefas subsequentes. Notavelmente, em algumas instâncias, ele iguala o desempenho do Llama-2-13B. Enquanto o Megalodon mantém uma janela de contexto de 4.000 tokens em um ritmo um pouco mais lento que o Llama-2, ele se destaca significativamente com um comprimento de contexto de 32.000 tokens devido à eficiência computacional aprimorada. Descobertas experimentais iniciais sugerem que o Megalodon pode modelar efetivamente sequências de comprimentos indefinidos.

A equipe de pesquisa também obteve resultados promissores em experimentos em menor escala em diferentes modalidades de dados e planeja adaptar o Megalodon para aplicações multimodais. O código do Megalodon está disponível no GitHub sob uma licença MIT, permitindo adaptação e uso comercial sem restrições.

A Dominância dos Transformers

Apesar das explorações contínuas de arquiteturas alternativas, como a Mamba (usada comercialmente pela AI21 Labs) e redes neurais líquidas desenvolvidas no MIT, os Transformers permanecem como a principal arquitetura para modelos de linguagem. A Meta continua a inovar com modelos como o Megalodon, ao mesmo tempo em que aprimora sua linha de Transformers, incluindo o recente lançamento do Llama-3.

Adaptar novas arquiteturas para corresponder ao extenso ecossistema de ferramentas e bibliotecas disponíveis para Transformers é um desafio. Essas ferramentas facilitam o treinamento, ajuste e otimização dos modelos para diversas aplicações e dispositivos, conferindo aos Transformers uma vantagem consistente. Pesquisadores também estão modificando a arquitetura Transformer para aliviar suas demandas computacionais. Por exemplo, a Infini-attention do Google visa suportar janelas de contexto ilimitadas sem aumentar as necessidades de memória, com modelos atuais manipulando entradas de centenas de milhares de tokens.

À medida que a pesquisa em IA evolui rapidamente, é essencial reconhecer que o panorama é dinâmico. Quando o Transformer foi introduzido em 2017, poucos previam seu profundo impacto. Futuros modelos podem ainda superar o Transformer em capacidade.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles