Llama-3.1-Minitron 4B da Nvidia: Um Modelo de Linguagem Pequeno e Poderoso que Supera Expectativas

À medida que as empresas de tecnologia competem para oferecer IA em dispositivos, a pesquisa sobre Modelos de Linguagem Pequenos (SLMs) otimizados para dispositivos com recursos limitados está se expandindo rapidamente. Uma recente inovação da Nvidia apresentou o Llama-3.1-Minitron 4B, uma versão compacta do modelo Llama 3, que utiliza técnicas avançadas de poda e destilação. Este novo modelo não só rivaliza com versões maiores, mas também proporciona um processo de treinamento e implantação mais eficiente.

Entendendo Poda e Destilação

A poda e a destilação são técnicas essenciais para desenvolver modelos de linguagem menores e mais eficientes. A poda remove componentes menos críticos: a "poda de profundidade" elimina camadas inteiras, enquanto a "poda de largura" descarta elementos específicos, como neurônios e cabeçotes de atenção.

A destilação de modelos envolve transferir conhecimento de um "modelo professor" maior para um "modelo aluno" mais simples. Existem duas abordagens principais:

1. Treinamento SGD: O modelo aluno aprende a partir das entradas e respostas do professor.

2. Destilação Clássica de Conhecimento: Nesta metodologia, o aluno aprende não apenas com as saídas finais, mas também com as ativações intermediárias do modelo professor.

Um estudo anterior da Nvidia combinou poda com destilação clássica, refinando o modelo Nemotron 15B para um modelo de 8 bilhões de parâmetros. A destilação subsequente do modelo original para a versão podada resultou em um modelo menor de 4B, alcançando uma melhoria de 16% no benchmark MMLU, utilizando 40 vezes menos tokens de treinamento do que começar do zero.

Desenvolvendo o Llama 3.1-Minitron

Ampliando suas técnicas anteriores, a Nvidia aplicou os mesmos métodos ao modelo Llama 3.1 8B para criar uma versão de 4 bilhões de parâmetros, capaz de competir com modelos maiores. O processo começou com o ajuste fino do modelo 8B não podado em um conjunto de dados abrangente de 94 bilhões de tokens para lidar com mudanças de distribuição que dificultaram sua orientação durante a destilação.

Em seguida, foram empregadas duas formas de poda: a poda apenas de profundidade, que reduziu as camadas do modelo em 50%, e a poda apenas de largura, que removeu 50% dos neurônios em certas camadas densas. Essas modificações resultaram em duas versões distintas do modelo Llama-3.1-Minitron 4B.

Os modelos podados passaram por um ajuste fino utilizando o NeMo-Aligner, uma ferramenta equipada com vários algoritmos de alinhamento, incluindo aprendizado por reforço com feedback humano (RLHF) e o SteerLM da Nvidia.

Resultados de Desempenho

A Nvidia avaliou os modelos Llama-3.1-Minitron 4B em tarefas relacionadas ao seguimento de instruções, interpretação de papéis, geração aumentada por recuperação e chamadas de função. Apesar de um conjunto de dados de treinamento menor, o Llama-3.1-Minitron 4B apresentou desempenho comparável a outros SLMs como Phi-2 2.7B e Gemma2 2.6B, sendo, no entanto, significativamente maior. Isso destaca uma troca interessante entre custos de treinamento e eficiência de inferência.

A versão podada do modelo já está disponível no Hugging Face sob a Licença de Modelo Aberto da Nvidia, promovendo maior acessibilidade e uso comercial para desenvolvedores.

A Nvidia enfatiza que “a poda e a destilação clássica de conhecimento são uma maneira econômica de criar modelos de linguagem grandes, pequenos e de alta precisão em comparação com métodos tradicionais.” Este trabalho destaca o papel crítico da comunidade de código aberto no avanço da IA, demonstrando como as estratégias de poda e destilação podem otimizar LLMs enquanto minimizam custos. Outros esforços inovadores, como o algoritmo de fusão de modelos evolutivos da Sakana AI, evidenciam ainda mais o potencial de soluções de treinamento de baixo custo no cenário da IA.

Most people like

Find AI tools in YBX