Arquitetura Transformers Revolucionária Aumenta a Velocidade e a Eficiência dos Modelos de Linguagem

Modelos de linguagem grandes, como ChatGPT e Llama-2, são conhecidos por suas extensas exigências de memória e computação, o que os torna caros para operar. Reduzir mesmo uma pequena parte de seu tamanho pode gerar economias significativas.

Para enfrentar esse desafio, pesquisadores da ETH Zurique apresentaram uma versão inovadora do transformer—uma arquitetura de aprendizado profundo que serve como base para modelos de linguagem. Este novo design reduz significativamente o tamanho do transformer enquanto mantém a precisão e aumenta a velocidade de inferência, mostrando uma abordagem promissora para criar modelos de linguagem mais eficientes.

Entendendo os Blocos de Transformer

Modelos de linguagem dependem de blocos de transformer, unidades uniformes projetadas para processar dados sequenciais, como trechos de texto. Um bloco clássico de transformer consiste em dois componentes principais: o mecanismo de atenção e o perceptron de múltiplas camadas (MLP). O mecanismo de atenção destaca seletivamente partes dos dados de entrada (como palavras em uma frase), capturando seu contexto e importância em relação uns aos outros. Essa capacidade permite ao modelo entender as relações entre palavras, mesmo quando estão distantes no texto.

Após o mecanismo de atenção, o MLP—uma rede neural menor—refina ainda mais as informações destacadas, transformando-as em uma representação mais sofisticada que captura relações complexas. Componentes adicionais, como conexões residuais e camadas de normalização, aprimoram o aprendizado e abordam desafios comuns em redes neurais profundas. À medida que esses blocos de transformer se empilham para formar um modelo de linguagem, sua capacidade de reconhecer relações complexas cresce, permitindo as tarefas avançadas realizadas pelos modelos modernos. Apesar de seu impacto revolucionário, o design básico do bloco de transformer permaneceu amplamente inalterado desde a sua criação.

Aumentando a Eficiência do Transformer

De acordo com os pesquisadores da ETH Zurique, "Dado o custo exorbitante de treinar e implantar grandes modelos de transformer atualmente, quaisquer ganhos de eficiência nos pipelines de treinamento e inferência para a arquitetura transformer representam economias significativas." Eles argumentam que simplificar o bloco de transformer, removendo componentes não essenciais, minimiza a quantidade de parâmetros e aumenta o desempenho do modelo.

Os experimentos revelaram que a otimização do bloco de transformer não compromete a velocidade de treinamento ou o desempenho. Modelos tradicionais de transformer utilizam múltiplas cabeças de atenção, cada uma com seu próprio conjunto de parâmetros de chave (K), consulta (Q) e valor (V), que facilitam o mapeamento das relações entre os tokens de entrada. Os pesquisadores descobriram que eliminar os parâmetros V e a camada de projeção associada não diminuiu a eficácia.

Além disso, removeram conexões de salto, que normalmente evitam o problema dos "gradientes que desaparecem" que prejudica o treinamento em redes profundas.

Novo Design do Bloco de Transformer

O bloco de transformer redesenhado processa as cabeças de atenção e o MLP simultaneamente, afastando-se do processamento sequencial tradicional. Para compensar a redução dos parâmetros, os pesquisadores ajustaram outros parâmetros não aprendíveis, refinaram seus métodos de treinamento e fizeram ajustes arquitetônicos. Essas inovações preservam coletivamente as capacidades de aprendizado do modelo, apesar de sua estrutura mais enxuta.

Testando o Bloco de Transformer Aprimorado

A equipe da ETH Zurique avaliou seu bloco compacto de transformer em diversas profundidades de modelo de linguagem. Eles lograram uma redução notável no tamanho do transformer convencional de aproximadamente 16% sem sacrificar a precisão, enquanto garantiam tempos de inferência mais rápidos. Por exemplo, aplicar essa arquitetura em um grande modelo como o GPT-3, com 175 bilhões de parâmetros, poderia economizar cerca de 50 GB de memória.

"Nossos modelos simplificados não apenas treinam mais rápido, mas também utilizam melhor a capacidade adicional proporcionada por uma maior profundidade," observaram os pesquisadores. Embora essa técnica tenha mostrado eficácia em uma escala menor, sua aplicação em modelos maiores ainda precisa ser explorada. O potencial para melhorias adicionais, como a personalização de processadores de IA para essa arquitetura otimizada, poderia amplificar significativamente seu impacto.

Os pesquisadores concluem: "Acreditamos que nosso trabalho pode levar à adoção de arquiteturas mais simples na prática, conectando a teoria à aplicação em aprendizado profundo e reduzindo os custos associados a grandes modelos de transformer."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles