Transformación del Desarrollo de IA: Nous Research Lanza una Herramienta Revolucionaria para Entrenamiento de Modelos con una Eficiencia 10,000 Veces Mayor.

Home Noticias de IA Transformación del Desarrollo de IA: Nous Research Lanza una Herramienta Revolucionaria para Entrenamiento de Modelos con una Eficiencia 10,000 Veces Mayor.

Nous Research ha causado sensación este mes con el lanzamiento de su variante de código abierto Llama 3.1, Hermes 3. Ahora, este pequeño equipo de investigación, enfocado en desarrollar modelos de IA "personalizados y sin restricciones", ha presentado otra innovación revolucionaria: DisTrO (Entrenamiento Distribuido a Través de Internet). Este nuevo optimizador reduce significativamente la transferencia de datos necesaria entre GPUs (unidades de procesamiento gráfico) durante el entrenamiento de modelos de IA.

DisTrO capacita a individuos e instituciones de todo el mundo para entrenar modelos de IA avanzados de manera colaborativa a través de conexiones de internet de grado consumidor, eliminando la necesidad de que grandes corporaciones dominen el proceso de entrenamiento. En un reciente trabajo técnico, Nous Research reveló que DisTrO logra un impresionante aumento de eficiencia de 857 veces en comparación con el popular algoritmo de entrenamiento All-Reduce. También disminuye la transmisión de datos de 74.4 gigabytes a solo 86.8 megabytes por paso de entrenamiento, con una caída de rendimiento mínima. Los hallazgos se resumen en la tabla a continuación de su documento de investigación.

En última instancia, DisTrO podría democratizar el acceso al entrenamiento de poderosos modelos de IA, permitiendo que más personas exploren y experimenten sin barreras corporativas.

El reto del entrenamiento de IA: demandas de hardware sustanciales

Como se discutió anteriormente, las GPUs de Nvidia están en alta demanda durante el auge de la IA generativa. Estas costosas tarjetas gráficas ofrecen la capacidad de procesamiento paralelo necesaria para un entrenamiento eficiente y rápido de IA. El proceso de entrenamiento depende en gran medida de clústeres de GPUs que se comunican para compartir conocimientos adquiridos de los conjuntos de datos de entrenamiento.

Esta "comunicación entre GPUs" requiere clústeres de GPUs arquitectónicamente meticulosos para minimizar la latencia y maximizar el rendimiento. En consecuencia, empresas como Tesla están invirtiendo en "superclústeres" físicos compuestos por miles de GPUs alojadas en grandes instalaciones.

Debido a estos requisitos estrictos, entrenar IA generativa, especialmente modelos sofisticados, a menudo es una tarea que requiere una gran inversión, accesible principalmente a empresas bien financiadas como Tesla, Meta, OpenAI, Microsoft, Google y Anthropic.

Cada una de estas organizaciones tiene su propia metodología de entrenamiento, pero todas utilizan hardware similar y controlan estrechamente sus procesos de entrenamiento de IA, lo que dificulta la competencia para principiantes o desarrolladores casuales.

Sin embargo, Nous Research se diferencia al abogar por un desarrollo de IA accesible y poderoso que cualquiera pueda personalizar sin restricciones.

Lo que diferencia a DisTrO

Los métodos convencionales de entrenamiento de IA requieren sincronizar gradientes completos entre múltiples GPUs y dependen de conexiones de alta capacidad. En contraste, DisTrO minimiza la sobrecarga de comunicación entre cuatro y cinco órdenes de magnitud.

Aunque los algoritmos específicos que permiten esta eficiencia no han sido completamente revelados, los autores planean compartir más detalles pronto. La reducción se logró sin depender de análisis amortizados o comprometer la tasa de convergencia, permitiendo entrenar modelos de gran escala a través de conexiones de internet más lentas —100 Mbps de descarga y 10 Mbps de subida, ampliamente accesibles para los consumidores.

El equipo de investigación probó DisTrO con Llama 2 de Meta, un modelo de lenguaje grande (LLM) de 1.2 mil millones de parámetros. Los resultados demostraron un rendimiento de entrenamiento comparable a los métodos tradicionales, mientras se redujo significativamente la transferencia de datos. El equipo señala que este modelo es el más pequeño efectivo con DisTrO y aún no está claro cómo se escala la reducción de ancho de banda con el tamaño del modelo.

Las pruebas preliminares indican una reducción potencial de ancho de banda de 1000x a 3000x durante el pre-entrenamiento y hasta 10000x durante el post-entrenamiento, sin degradación notable en el rendimiento. También especulan que DisTrO podría aplicarse para entrenar grandes modelos de difusión, como Stable Diffusion y servicios similares de generación de imágenes.

La necesidad continua de GPUs

Es fundamental señalar que DisTrO aún requiere GPUs, pero permite que operen de manera globalmente distribuida en lugar de co-localizadas en la misma instalación.

Específicamente, la evaluación involucró 32 GPUs H100 utilizando la estrategia de Paralelismo de Datos Distribuidos (DDP), donde cada GPU albergaba el modelo completo en VRAM. Este marco permitió pruebas rigurosas de las capacidades de DisTrO, demostrando que puede igualar las tasas de convergencia de AdamW+All-Reduce, mientras reduce significativamente las necesidades de comunicación.

DisTrO podría interrumpir los métodos de entrenamiento tradicionales sin sacrificar la calidad del modelo, ofreciendo una solución escalable para el entrenamiento distribuido a gran escala. Al disminuir la necesidad de conexiones de alta velocidad, permite el entrenamiento colaborativo de modelos a través de redes descentralizadas, incluso entre usuarios con servicios de internet estándar.

El informe de investigación ahonda aún más en las implicaciones de DisTrO para el aprendizaje federado y el entrenamiento descentralizado. Su eficiencia también podría ayudar a mitigar el impacto ambiental del entrenamiento de IA al optimizar la infraestructura existente y reducir la dependencia de grandes centros de datos.

Además, estas innovaciones podrían cambiar el paradigma del entrenamiento de modelos a gran escala de centros de datos pesados y centralizados hacia métodos más distribuidos y colaborativos que utilicen recursos computacionales diversos.

¿Qué sigue para Nous Research y DisTrO?

El equipo de investigación invita a otros a unirse a ellos en la exploración de las posibilidades de DisTrO. Informes preliminares y materiales adicionales están disponibles en GitHub, y buscan activamente colaboradores para refinar y ampliar esta tecnología innovadora.

Influencers de IA, como @kimmonismus en X, han elogiado esta investigación como potencialmente transformadora para el campo, declarando: “¡Esto podría cambiarlo todo!”

Con DisTrO, Nous Research no solo está mejorando las capacidades de entrenamiento de IA, sino que también está fomentando un ecosistema de investigación más inclusivo, capaz de desbloquear avances significativos en inteligencia artificial.

Anthropic Presenta Prompts para Sistemas de IA, Recibiendo Reconocimientos por su Transparencia e Innovación

Revolucionando la Creación de Videos: Cómo la IA de Código Abierto, CogVideoX, Puede Transformar el Futuro de la Producción de Videos

Most people like

AI Two

69.5K

Presentamos una innovadora plataforma basada en inteligencia artificial que revoluciona el diseño de interiores. Esta herramienta de vanguardia utiliza IA para optimizar el proceso, facilitando que propietarios y diseñadores creen espacios bellos y funcionales. Ya sea que estés renovando tu hogar actual o construyendo desde cero, nuestra plataforma cuenta con características que mejoran la creatividad y la eficiencia, adaptándose a tus necesidades únicas. Descubre cómo nuestra tecnología de IA puede transformar tu visión en realidad, simplificando toda la experiencia de diseño.

Diseño de interiores con IA AI Design Generator

Ropes AI

15.7K

Evalúa a los candidatos de ingeniería como si estuvieras realizando una entrevista presencial, utilizando evaluaciones de codificación impulsadas por IA para mejorar el proceso de selección.

Evaluación impulsada por IA AI Recruiting

Toolsaday

655.9K

Desbloquea el potencial de una plataforma impulsada por IA, diseñada para crear contenido de marketing atractivo que cautive a tu audiencia.

Plataforma basada en IA AI Content Generator

BaiRBIE.me

44.2K

Desata tu BaiRBIE interior con la tecnología de IA: ¡simplemente sube fotos de alta resolución para empezar!

IA AI Clothing Generator

Find AI tools in YBX