A Previsão de Múltiplos Tokens da Meta Aumenta a Velocidade do Modelo de IA em até 3X

Em um estudo recente, pesquisadores da Meta, Ecole des Ponts ParisTech e Université Paris-Saclay propuseram uma nova abordagem para aumentar a precisão e a velocidade dos modelos de linguagem de grande escala (LLMs) de IA, permitindo que eles prevejam múltiplos tokens simultaneamente. Essa inovação desafia o design tradicional do modelo auto-regressivo, que prevê um token de cada vez.

Os Benefícios da Previsão de Múltiplos Tokens

Embora a previsão de múltiplos tokens não seja adequada para todos os LLMs ou tarefas linguísticas, ela oferece vantagens significativas em cenários específicos, como a aceleração de tarefas generativas a velocidades até três vezes mais rápidas que os métodos convencionais. Embora ainda haja espaço para refinamento, essa técnica pode se revelar uma ferramenta poderosa em certas aplicações de LLM.

Desafios da Previsão do Próximo Token

O método tradicional de treinamento de LLMs é chamado de "previsão do próximo token". Essa técnica de aprendizagem auto-supervisionada envolve apresentar ao modelo uma sequência de tokens e solicitar a previsão do próximo token, que é então adicionado à entrada para novas previsões. Esse processo iterativo, aplicado a extensos corpora de texto, permite ao modelo aprender a gerar texto coerente.

No entanto, pesquisadores identificaram limitações na abordagem de previsão do próximo token para o desenvolvimento de processamento de linguagem, aquisição de conhecimento e habilidades de raciocínio. Ao se concentrar em um único token, os modelos correm o risco de se tornarem excessivamente sensíveis a padrões locais, negligenciando raciocínios que requerem um contexto mais amplo. Além disso, a previsão do próximo token demanda vastos conjuntos de dados para atingir níveis de fluência que os humanos alcançam com menos texto.

O estudo da Meta afirma que "treinar modelos de linguagem para prever múltiplos tokens futuros de uma vez resulta em maior eficiência amostral".

Explorando a Previsão de Múltiplos Tokens

Em contraste, a previsão de múltiplos tokens direciona o LLM a prever vários tokens futuros em cada posição dos dados de treinamento simultaneamente. Os pesquisadores introduzem uma arquitetura simples de previsão de múltiplos tokens que não impõe requisitos adicionais de tempo ou memória de treinamento.

Este modelo se baseia na arquitetura Transformer, fundamental para a maioria dos LLMs, mas com modificações. Em vez de gerar uma única saída, ele inclui várias cabeçotes de saída independentes para cada previsão de token.

Implementação da Previsão de Múltiplos Tokens

Durante a inferência, o modelo emprega o método tradicional de previsão do próximo token para cada cabeçote de saída, utilizando os cabeçotes adicionais para simplificar o processo de decodificação. O framework aproveita trabalhos anteriores na área.

"Embora seja econômico e simples, a previsão de múltiplos tokens aprimora significativamente o treinamento de modelos Transformer mais rápidos e poderosos", afirmam os pesquisadores.

Resultados e Observações

A equipe testou sua estratégia de previsão de múltiplos tokens com modelos variando de 300 milhões a 13 bilhões de parâmetros. Os resultados revelaram padrões notáveis: modelos menores demonstram menor benefício da previsão de múltiplos tokens, que se torna cada vez mais eficaz à medida que o tamanho do modelo aumenta. Por exemplo, modelos treinados para previsões de 4 tokens mostraram melhorias de desempenho de vários pontos percentuais em comparação com previsões de um único token no benchmark de codificação MBPP.

Os pesquisadores concluiram: "É possível, utilizando os mesmos recursos computacionais, alcançar melhor desempenho em modelos de linguagem de grande escala ao empregar a previsão de múltiplos tokens." Além disso, essa abordagem aumenta as velocidades de inferência, tornando os modelos até três vezes mais rápidos em diversos tamanhos de lote. "O pré-treinamento com previsão de múltiplos tokens melhora a precisão de cabeçotes adicionais em comparação com o mero ajuste fino de um modelo de previsão do próximo token, desbloqueando todo o potencial da decodificação auto-especulativa", explicam.

O estudo também destaca que a previsão de múltiplos tokens incentiva o modelo a aprender padrões de longo prazo, especialmente em experimentos com "tokenização em nível de byte", onde cada byte é tratado como um único token. Nesses casos, a previsão de múltiplos bytes superou significativamente os modelos base de único byte, o que é crucial para aplicações sem um vocabulário predefinido.

Futuras Direções para Pesquisa

Apesar de suas vantagens, a previsão de múltiplos tokens não está isenta de desafios. Determinar o número ideal de tokens a serem previstos varia de acordo com a tarefa e o tamanho do modelo. Os pesquisadores estão explorando futuras avenues de pesquisa, incluindo técnicas automatizadas para identificar o melhor número de tokens a prever e as dinâmicas entre tamanhos de vocabulário e estratégias de múltiplos tokens.

Essa pesquisa promete aplicações empresariais, potencialmente proporcionando velocidades de inferência aprimoradas e maior precisão para tarefas generativas, como a conclusão de código, sem grandes alterações na arquitetura existente de LLMs, garantindo compatibilidade com outras técnicas de otimização dentro da estrutura Transformer.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles