A Nous Research se destacou neste mês com o lançamento de sua variante open-source Llama 3.1, chamada Hermes 3. Agora, a pequena equipe de pesquisa, focada em desenvolver modelos de IA “personalizados e sem restrições”, revelou outra inovação revolucionária: o DisTrO (Treinamento Distribuído pela Internet). Este novo otimizador reduz significativamente a transferência de dados entre GPUs (unidades de processamento gráfico) durante o treinamento de modelos de IA.
O DisTrO capacita indivíduos e instituições em todo o mundo a treinar modelos de IA avançados de forma colaborativa, utilizando conexões de internet comuns, eliminando a necessidade de grandes corporações dominarem o processo de treinamento. Em um artigo técnico recente, a Nous Research mostrou que o DisTrO alcança um aumento de eficiência impressionante de 857 vezes em comparação ao popular algoritmo de treinamento All-Reduce. Além disso, diminui a transmissão de dados de 74,4 gigabytes para apenas 86,8 megabytes por etapa de treinamento, resultando em uma leve queda de desempenho. Os resultados estão resumidos na tabela abaixo do seu artigo de pesquisa.
No final, o DisTrO pode democratizar o acesso ao treinamento de modelos de IA poderosos, permitindo que mais pessoas explorem e experimentem sem barreiras corporativas.
O Desafio do Treinamento de IA: Altas Demandas de Hardware
Como discutido anteriormente, as GPUs da Nvidia estão em alta demanda durante o boom da IA generativa. Essas placas gráficas caras oferecem o poder de processamento paralelo necessário para um treinamento eficiente e rápido de IA. O processo de treinamento depende fortemente de clusters de GPUs que se comunicam para compartilhar insights obtidos a partir de conjuntos de dados de treinamento.
Essa "comunicação inter-GPU" requer clusters de GPU cuidadosamente projetados para minimizar a latência e maximizar a taxa de transferência. Consequentemente, empresas como a Tesla estão investindo em "superclusters" físicos compostos por milhares de GPUs em grandes instalações.
Devido a esses requisitos rigorosos, o treinamento de IA generativa, especialmente os modelos mais sofisticados, é frequentemente uma empreitada que requer alto capital, acessível principalmente a empresas bem financiadas como Tesla, Meta, OpenAI, Microsoft, Google e Anthropic. Cada uma dessas organizações possui sua própria metodologia de treinamento, mas todas geralmente utilizam hardware similar e controlam de perto seus processos de treinamento, dificultando a competição para novatos ou desenvolvedores ocasionais com modelos de parâmetros semelhantes.
Entretanto, a Nous Research se diferencia ao defender o desenvolvimento de IA acessível e poderoso que qualquer pessoa possa personalizar sem restrições.
O Que Torna o DisTrO Único
Os métodos tradicionais de treinamento de IA necessitam da sincronização de gradientes completos entre várias GPUs e dependem de conexões de alta largura de banda. Em contraste, o DisTrO minimiza a sobrecarga de comunicação em quatro a cinco ordens de magnitude.
Embora os algoritmos específicos que possibilitam essa eficiência ainda não tenham sido totalmente divulgados, os autores planejam compartilhar mais detalhes em breve. A redução foi alcançada sem depender de análises amortizadas ou comprometer a taxa de convergência, permitindo que grandes modelos sejam treinados por meio de conexões de internet mais lentas—100 Mbps de download e 10 Mbps de upload, amplamente acessíveis aos consumidores.
A equipe de pesquisa testou o DisTrO com o Llama 2 da Meta, um modelo de linguagem de 1,2 bilhão de parâmetros (LLM). Os resultados demonstraram um desempenho de treinamento comparável aos métodos tradicionais, ao mesmo tempo em que reduziram significativamente a transferência de dados. A equipe observa que este modelo é o menor eficaz com o DisTrO e ainda não está claro como a redução de largura de banda escala com o tamanho do modelo.
Testes preliminares indicam uma redução de largura de banda potencial de 1000x a 3000x durante o pré-treinamento e até 10000x durante o pós-treinamento, sem degradação perceptível no desempenho. Eles também especulam que o DisTrO poderia ser aplicado para treinar grandes modelos de difusão, como o Stable Diffusion e serviços semelhantes de geração de imagens.
A Necessidade Contínua de GPUs
É importante notar que o DisTrO ainda requer GPUs, mas permite que operem de maneira globalmente distribuída, em vez de co-localizadas na mesma instalação.
Especificamente, a avaliação envolveu 32 GPUs H100 usando a estratégia de Paralelismo de Dados Distribuídos (DDP), onde cada GPU armazenava o modelo completo na VRAM. Essa estrutura possibilitou testes rigorosos das capacidades do DisTrO, provando que ele pode igualar as taxas de convergência do AdamW+All-Reduce, enquanto reduz significativamente as necessidades de comunicação.
O DisTrO pode revolucionar os métodos tradicionais de treinamento sem comprometer a qualidade do modelo, oferecendo uma solução escalável para treinamento distribuído em grande escala. Ao diminuir a necessidade de conexões de alta velocidade, ele possibilita o treinamento colaborativo de modelos em redes descentralizadas, mesmo entre usuários com serviços de internet padrão.
O relatório de pesquisa também explora as implicações do DisTrO para o aprendizado federado e treinamento descentralizado. Sua eficiência pode ajudar a mitigar o impacto ambiental do treinamento de IA, otimizando a infraestrutura existente e reduzindo a dependência de grandes data centers.
Além disso, essas inovações podem mudar o paradigma do treinamento de modelos em grande escala de centros de dados centralizados e pesados em recursos para métodos mais distribuídos e colaborativos que utilizam recursos computacionais diversos.
O Que Vem a Seguir para a Nous Research e o DisTrO?
A equipe de pesquisa convida outros a se juntarem a eles na exploração das possibilidades do DisTrO. Relatórios preliminares e materiais adicionais estão disponíveis no GitHub, e eles buscam ativamente colaboradores para refinar e expandir essa tecnologia inovadora.
Influenciadores de IA, como @kimmonismus no X, louvaram essa pesquisa como potencialmente transformadora para o campo, declarando: “Isso pode mudar tudo!”
Com o DisTrO, a Nous Research não apenas aprimora as capacidades de treinamento de IA, mas também fomenta um ecossistema de pesquisa mais inclusivo, capaz de desbloquear avanços significativos em inteligência artificial.