Meta Lança Megalodon LLM, Desafiando a Arquitetura Transformer

Home Notícias de IA Meta Lança Megalodon LLM, Desafiando a Arquitetura Transformer

Um novo modelo de aprendizado de máquina desenvolvido por pesquisadores da Meta e da Universidade do Sul da Califórnia aborda desafios cruciais associados à arquitetura Transformer, que tem sido fundamental para o avanço dos grandes modelos de linguagem (LLMs). Nomeado Megalodon, o modelo estende significativamente a janela de contexto para milhões de tokens, minimizando o uso de memória. Experimentos indicam que o Megalodon se destaca em comparação com modelos Transformer similares ao lidar com textos extensos, posicionando-o como um potencial sucessor da arquitetura Transformer.

Entendendo Janelas de Contexto

A "janela de contexto" refere-se ao número de tokens que um modelo pode processar simultaneamente. Uma janela de contexto mais ampla melhora a capacidade dos LLMs de engajar em conversas mais longas, analisar documentos extensos e aprimorar o aprendizado em contexto. No entanto, o aumento da janela de contexto de um Transformer acarreta um custo computacional significativo. A arquitetura Transformer opera com "complexidade quadrática", significando que dobrar o tamanho da entrada quadruplica tanto a memória quanto o tempo de computação necessários. Essa relação surge do mecanismo de autoatenção, onde cada elemento da sequência de entrada é comparado a todos os outros.

O Megalodon da Meta baseia-se na técnica Moving Average Equipped Gated Attention (MEGA), introduzida em 2022, que otimiza o mecanismo de atenção, reduzindo consideravelmente a complexidade do modelo. Isso permite que o LLM manipule entradas mais longas sem demandar memória excessiva. A MEGA incorpora média móvel exponencial (EMA) para equilibrar a importância das relações de tokens locais e de longo alcance, garantindo coerência à medida que o contexto se expande.

Inovações Chave no Megalodon

O Megalodon aprimora a MEGA por meio de várias modificações arquitetônicas que alinham seu desempenho ao mecanismo de atenção total tradicional dos Transformers. Ele utiliza "atenção em blocos", dividindo sequências de entrada em blocos fixos, transformando a complexidade de quadrática para linear. Essa abordagem também facilita um paralelismo adicional, acelerando o treinamento do modelo.

Pesquisadores treinaram uma versão de 7 bilhões de parâmetros do Megalodon em 2 trilhões de tokens, comparando-a com os modelos Llama-2-7B e 13B. Os resultados mostram que o Megalodon-7B supera os Transformers de ponta usados no treinamento do Llama-2-7B em perplexidade de treinamento e em várias tarefas subsequentes. Notavelmente, em algumas instâncias, ele iguala o desempenho do Llama-2-13B. Enquanto o Megalodon mantém uma janela de contexto de 4.000 tokens em um ritmo um pouco mais lento que o Llama-2, ele se destaca significativamente com um comprimento de contexto de 32.000 tokens devido à eficiência computacional aprimorada. Descobertas experimentais iniciais sugerem que o Megalodon pode modelar efetivamente sequências de comprimentos indefinidos.

A equipe de pesquisa também obteve resultados promissores em experimentos em menor escala em diferentes modalidades de dados e planeja adaptar o Megalodon para aplicações multimodais. O código do Megalodon está disponível no GitHub sob uma licença MIT, permitindo adaptação e uso comercial sem restrições.

A Dominância dos Transformers

Apesar das explorações contínuas de arquiteturas alternativas, como a Mamba (usada comercialmente pela AI21 Labs) e redes neurais líquidas desenvolvidas no MIT, os Transformers permanecem como a principal arquitetura para modelos de linguagem. A Meta continua a inovar com modelos como o Megalodon, ao mesmo tempo em que aprimora sua linha de Transformers, incluindo o recente lançamento do Llama-3.

Adaptar novas arquiteturas para corresponder ao extenso ecossistema de ferramentas e bibliotecas disponíveis para Transformers é um desafio. Essas ferramentas facilitam o treinamento, ajuste e otimização dos modelos para diversas aplicações e dispositivos, conferindo aos Transformers uma vantagem consistente. Pesquisadores também estão modificando a arquitetura Transformer para aliviar suas demandas computacionais. Por exemplo, a Infini-attention do Google visa suportar janelas de contexto ilimitadas sem aumentar as necessidades de memória, com modelos atuais manipulando entradas de centenas de milhares de tokens.

À medida que a pesquisa em IA evolui rapidamente, é essencial reconhecer que o panorama é dinâmico. Quando o Transformer foi introduzido em 2017, poucos previam seu profundo impacto. Futuros modelos podem ainda superar o Transformer em capacidade.

O Chip Revolucionário da Groq Oferece Incomparável Desempenho de 800 Tokens Por Segundo com o LLaMA 3 da Meta

A Microsoft apresentou o VASA-1: uma estrutura de IA que dá vida a retratos humanos com voz e música.

Most people like

SearchAI by Bocha

20.3K

Apresentando um Mecanismo de Respostas Sem Anúncios: Sua Fonte Confiável para Informações Claras e Imparciais Em um mundo saturado de anúncios e distrações de marketing, encontrar respostas diretas pode ser desafiador. Nosso Mecanismo de Respostas Sem Anúncios oferece uma plataforma livre de poluição, entregando informações precisas e confiáveis sem interrupções ou conteúdo promocional. Mergulhe em uma experiência onde sua busca por conhecimento é priorizada, garantindo que você obtenha os insights necessários—na hora que precisar. Descubra clareza sem o ruído!

Busca de IA Large Language Models (LLMs)

Edusign

19.8K

A Edusign simplifica a gestão de frequência para instituições educacionais e organizações de treinamento, oferecendo uma solução eficiente para acompanhar e gerenciar a presença dos participantes de forma integrada.

gestão de frequência AI Education Assistant

EverSQL

48.3K

Apresentando o Otimizador de Consultas SQL Potencializado por IA: Revolucione o desempenho do seu banco de dados com nossa ferramenta inovadora, projetada para aumentar a eficiência das consultas SQL. Ao utilizar técnicas avançadas de inteligência artificial, nosso otimizador analisa e ajusta suas consultas, garantindo uma recuperação de dados mais rápida e uma produtividade geral aprimorada. Liberte todo o potencial do seu banco de dados e otimize suas operações com nossa solução inovadora.

Otimização de consultas SQL AI SQL Query Builder

Open Interpreter Project

68.6K

Desbloquear a execução de código e a automação de tarefas por meio de modelos de linguagem revolucionou a forma como interagimos com a tecnologia. Ao aproveitar o poder da inteligência artificial avançada, esses modelos possibilitam automação fluida, otimizando fluxos de trabalho e aumentando a produtividade. Descubra como utilizar modelos de linguagem para simplificar tarefas de codificação complexas e automatizar processos como nunca antes.

código aberto AI Developer Tools

Find AI tools in YBX