Nous Research ha causado sensación este mes con el lanzamiento de su variante de código abierto Llama 3.1, Hermes 3. Ahora, este pequeño equipo de investigación, enfocado en desarrollar modelos de IA "personalizados y sin restricciones", ha presentado otra innovación revolucionaria: DisTrO (Entrenamiento Distribuido a Través de Internet). Este nuevo optimizador reduce significativamente la transferencia de datos necesaria entre GPUs (unidades de procesamiento gráfico) durante el entrenamiento de modelos de IA.
DisTrO capacita a individuos e instituciones de todo el mundo para entrenar modelos de IA avanzados de manera colaborativa a través de conexiones de internet de grado consumidor, eliminando la necesidad de que grandes corporaciones dominen el proceso de entrenamiento. En un reciente trabajo técnico, Nous Research reveló que DisTrO logra un impresionante aumento de eficiencia de 857 veces en comparación con el popular algoritmo de entrenamiento All-Reduce. También disminuye la transmisión de datos de 74.4 gigabytes a solo 86.8 megabytes por paso de entrenamiento, con una caída de rendimiento mínima. Los hallazgos se resumen en la tabla a continuación de su documento de investigación.
En última instancia, DisTrO podría democratizar el acceso al entrenamiento de poderosos modelos de IA, permitiendo que más personas exploren y experimenten sin barreras corporativas.
El reto del entrenamiento de IA: demandas de hardware sustanciales
Como se discutió anteriormente, las GPUs de Nvidia están en alta demanda durante el auge de la IA generativa. Estas costosas tarjetas gráficas ofrecen la capacidad de procesamiento paralelo necesaria para un entrenamiento eficiente y rápido de IA. El proceso de entrenamiento depende en gran medida de clústeres de GPUs que se comunican para compartir conocimientos adquiridos de los conjuntos de datos de entrenamiento.
Esta "comunicación entre GPUs" requiere clústeres de GPUs arquitectónicamente meticulosos para minimizar la latencia y maximizar el rendimiento. En consecuencia, empresas como Tesla están invirtiendo en "superclústeres" físicos compuestos por miles de GPUs alojadas en grandes instalaciones.
Debido a estos requisitos estrictos, entrenar IA generativa, especialmente modelos sofisticados, a menudo es una tarea que requiere una gran inversión, accesible principalmente a empresas bien financiadas como Tesla, Meta, OpenAI, Microsoft, Google y Anthropic.
Cada una de estas organizaciones tiene su propia metodología de entrenamiento, pero todas utilizan hardware similar y controlan estrechamente sus procesos de entrenamiento de IA, lo que dificulta la competencia para principiantes o desarrolladores casuales.
Sin embargo, Nous Research se diferencia al abogar por un desarrollo de IA accesible y poderoso que cualquiera pueda personalizar sin restricciones.
Lo que diferencia a DisTrO
Los métodos convencionales de entrenamiento de IA requieren sincronizar gradientes completos entre múltiples GPUs y dependen de conexiones de alta capacidad. En contraste, DisTrO minimiza la sobrecarga de comunicación entre cuatro y cinco órdenes de magnitud.
Aunque los algoritmos específicos que permiten esta eficiencia no han sido completamente revelados, los autores planean compartir más detalles pronto. La reducción se logró sin depender de análisis amortizados o comprometer la tasa de convergencia, permitiendo entrenar modelos de gran escala a través de conexiones de internet más lentas —100 Mbps de descarga y 10 Mbps de subida, ampliamente accesibles para los consumidores.
El equipo de investigación probó DisTrO con Llama 2 de Meta, un modelo de lenguaje grande (LLM) de 1.2 mil millones de parámetros. Los resultados demostraron un rendimiento de entrenamiento comparable a los métodos tradicionales, mientras se redujo significativamente la transferencia de datos. El equipo señala que este modelo es el más pequeño efectivo con DisTrO y aún no está claro cómo se escala la reducción de ancho de banda con el tamaño del modelo.
Las pruebas preliminares indican una reducción potencial de ancho de banda de 1000x a 3000x durante el pre-entrenamiento y hasta 10000x durante el post-entrenamiento, sin degradación notable en el rendimiento. También especulan que DisTrO podría aplicarse para entrenar grandes modelos de difusión, como Stable Diffusion y servicios similares de generación de imágenes.
La necesidad continua de GPUs
Es fundamental señalar que DisTrO aún requiere GPUs, pero permite que operen de manera globalmente distribuida en lugar de co-localizadas en la misma instalación.
Específicamente, la evaluación involucró 32 GPUs H100 utilizando la estrategia de Paralelismo de Datos Distribuidos (DDP), donde cada GPU albergaba el modelo completo en VRAM. Este marco permitió pruebas rigurosas de las capacidades de DisTrO, demostrando que puede igualar las tasas de convergencia de AdamW+All-Reduce, mientras reduce significativamente las necesidades de comunicación.
DisTrO podría interrumpir los métodos de entrenamiento tradicionales sin sacrificar la calidad del modelo, ofreciendo una solución escalable para el entrenamiento distribuido a gran escala. Al disminuir la necesidad de conexiones de alta velocidad, permite el entrenamiento colaborativo de modelos a través de redes descentralizadas, incluso entre usuarios con servicios de internet estándar.
El informe de investigación ahonda aún más en las implicaciones de DisTrO para el aprendizaje federado y el entrenamiento descentralizado. Su eficiencia también podría ayudar a mitigar el impacto ambiental del entrenamiento de IA al optimizar la infraestructura existente y reducir la dependencia de grandes centros de datos.
Además, estas innovaciones podrían cambiar el paradigma del entrenamiento de modelos a gran escala de centros de datos pesados y centralizados hacia métodos más distribuidos y colaborativos que utilicen recursos computacionales diversos.
¿Qué sigue para Nous Research y DisTrO?
El equipo de investigación invita a otros a unirse a ellos en la exploración de las posibilidades de DisTrO. Informes preliminares y materiales adicionales están disponibles en GitHub, y buscan activamente colaboradores para refinar y ampliar esta tecnología innovadora.
Influencers de IA, como @kimmonismus en X, han elogiado esta investigación como potencialmente transformadora para el campo, declarando: “¡Esto podría cambiarlo todo!”
Con DisTrO, Nous Research no solo está mejorando las capacidades de entrenamiento de IA, sino que también está fomentando un ecosistema de investigación más inclusivo, capaz de desbloquear avances significativos en inteligencia artificial.