Llama-3.1-Minitron 4B da Nvidia: Um Modelo de Linguagem Pequeno e Poderoso que Supera Expectativas

Home Notícias de IA Llama-3.1-Minitron 4B da Nvidia: Um Modelo de Linguagem Pequeno e Poderoso que Supera Expectativas

À medida que as empresas de tecnologia competem para oferecer IA em dispositivos, a pesquisa sobre Modelos de Linguagem Pequenos (SLMs) otimizados para dispositivos com recursos limitados está se expandindo rapidamente. Uma recente inovação da Nvidia apresentou o Llama-3.1-Minitron 4B, uma versão compacta do modelo Llama 3, que utiliza técnicas avançadas de poda e destilação. Este novo modelo não só rivaliza com versões maiores, mas também proporciona um processo de treinamento e implantação mais eficiente.

Entendendo Poda e Destilação

A poda e a destilação são técnicas essenciais para desenvolver modelos de linguagem menores e mais eficientes. A poda remove componentes menos críticos: a "poda de profundidade" elimina camadas inteiras, enquanto a "poda de largura" descarta elementos específicos, como neurônios e cabeçotes de atenção.

A destilação de modelos envolve transferir conhecimento de um "modelo professor" maior para um "modelo aluno" mais simples. Existem duas abordagens principais:

1. Treinamento SGD: O modelo aluno aprende a partir das entradas e respostas do professor.

2. Destilação Clássica de Conhecimento: Nesta metodologia, o aluno aprende não apenas com as saídas finais, mas também com as ativações intermediárias do modelo professor.

Um estudo anterior da Nvidia combinou poda com destilação clássica, refinando o modelo Nemotron 15B para um modelo de 8 bilhões de parâmetros. A destilação subsequente do modelo original para a versão podada resultou em um modelo menor de 4B, alcançando uma melhoria de 16% no benchmark MMLU, utilizando 40 vezes menos tokens de treinamento do que começar do zero.

Desenvolvendo o Llama 3.1-Minitron

Ampliando suas técnicas anteriores, a Nvidia aplicou os mesmos métodos ao modelo Llama 3.1 8B para criar uma versão de 4 bilhões de parâmetros, capaz de competir com modelos maiores. O processo começou com o ajuste fino do modelo 8B não podado em um conjunto de dados abrangente de 94 bilhões de tokens para lidar com mudanças de distribuição que dificultaram sua orientação durante a destilação.

Em seguida, foram empregadas duas formas de poda: a poda apenas de profundidade, que reduziu as camadas do modelo em 50%, e a poda apenas de largura, que removeu 50% dos neurônios em certas camadas densas. Essas modificações resultaram em duas versões distintas do modelo Llama-3.1-Minitron 4B.

Os modelos podados passaram por um ajuste fino utilizando o NeMo-Aligner, uma ferramenta equipada com vários algoritmos de alinhamento, incluindo aprendizado por reforço com feedback humano (RLHF) e o SteerLM da Nvidia.

Resultados de Desempenho

A Nvidia avaliou os modelos Llama-3.1-Minitron 4B em tarefas relacionadas ao seguimento de instruções, interpretação de papéis, geração aumentada por recuperação e chamadas de função. Apesar de um conjunto de dados de treinamento menor, o Llama-3.1-Minitron 4B apresentou desempenho comparável a outros SLMs como Phi-2 2.7B e Gemma2 2.6B, sendo, no entanto, significativamente maior. Isso destaca uma troca interessante entre custos de treinamento e eficiência de inferência.

A versão podada do modelo já está disponível no Hugging Face sob a Licença de Modelo Aberto da Nvidia, promovendo maior acessibilidade e uso comercial para desenvolvedores.

A Nvidia enfatiza que “a poda e a destilação clássica de conhecimento são uma maneira econômica de criar modelos de linguagem grandes, pequenos e de alta precisão em comparação com métodos tradicionais.” Este trabalho destaca o papel crítico da comunidade de código aberto no avanço da IA, demonstrando como as estratégias de poda e destilação podem otimizar LLMs enquanto minimizam custos. Outros esforços inovadores, como o algoritmo de fusão de modelos evolutivos da Sakana AI, evidenciam ainda mais o potencial de soluções de treinamento de baixo custo no cenário da IA.

Como a Índia Utiliza a Computação Acelerada da Nvidia para Otimizar a Gestão de Tráfego em Pedágios

Desbloqueie o Fine-Tuning para GPT-4o: Aproveite 1 Milhão de Tokens Grátis Diários até 23 de Setembro!

Most people like

Lummi

376.9K

Descubra o mundo das fotos de estoque selecionadas por IA, onde tecnologia de ponta encontra visuais impressionantes. Explore uma coleção extensa de imagens de alta qualidade, cuidadosamente escolhidas por inteligência artificial para atender às suas necessidades criativas. Seja para campanhas de marketing, mídias sociais ou projetos pessoais, nossa plataforma impulsionada por IA garante que você encontre as fotos de estoque perfeitas que ressoam com seu público. Mergulhe em uma nova era de imagens e eleve seus projetos com visuais marcantes hoje!

fotos de banco de imagens AI Photo & Image Generator

Craiyon

Descubra o fascinante mundo da geração de imagens impulsionada por IA, onde a tecnologia de ponta transforma ideias criativas em visuais impressionantes. Este campo inovador combina algoritmos avançados e aprendizado de máquina para produzir imagens únicas, abrindo portas para infinitas possibilidades artísticas. Junte-se a nós enquanto exploramos o potencial da inteligência artificial para revolucionar a forma como criamos e interagimos com o conteúdo visual.

IA Text to Image

GetSearchablePDF

Transforme seus documentos PDF com nossa avançada solução de OCR em massa, garantindo alta precisão mesmo para imagens e texto manuscrito. Melhore seu fluxo de trabalho convertendo grandes volumes de PDFs de forma simples, preservando detalhes importantes e clareza.

OCR de PDF AI PDF

TextIt - The Leading Bot Platform

7.9K

Crie e implemente bots de mensagens multicanal globalmente, alcançando públicos em diversas plataformas.

plataforma de bots Other

Find AI tools in YBX