Nous Research sorgte diesen Monat für Aufsehen mit der Veröffentlichung seiner Open-Source-Variante Llama 3.1, Hermes 3. Jetzt hat das kleine Forschungsteam, das sich auf die Entwicklung von „personalisierten, unbegrenzten KI“-Modellen konzentriert, eine weitere bahnbrechende Innovation vorgestellt: DisTrO (Distributed Training Over-the-Internet). Dieser neue Optimierer reduziert signifikant den Datenverkehr zwischen GPUs (Grafikprozessoren) während des Trainings von KI-Modellen.
DisTrO ermöglicht es Einzelpersonen und Institutionen weltweit, fortschrittliche KI-Modelle kollaborativ über handelsübliche Internetverbindungen zu trainieren und beseitigt dadurch die Dominanz großer Unternehmen im Trainingsprozess. In einem aktuellen technischen Papier stellte Nous Research fest, dass DisTrO eine beeindruckende Effizienzsteigerung von 857-fach im Vergleich zum beliebten All-Reduce-Trainingsalgorithmus erreicht. Zudem reduziert sich der Datenübertrag von 74,4 Gigabyte auf lediglich 86,8 Megabyte pro Trainingsschritt, was nur einen geringen Leistungseinbruch zur Folge hat. Die Ergebnisse sind in der Tabelle unten aus ihrem Forschungspapier zusammengefasst.
Letztlich könnte DisTrO den Zugang zu leistungsstarkem KI-Modelltraining demokratisieren und mehr Menschen die Möglichkeit geben, ohne unternehmerische Barrieren zu forschen und zu experimentieren.
Die Herausforderung beim KI-Training: Hoher Hardwarebedarf
Wie bereits erörtert, sind Nvidias GPUs während des Aufschwungs der generativen KI stark gefragt. Diese teuren Grafikkarten bieten die notwendige parallele Verarbeitungskraft für ein effizientes und schnelles KI-Training. Der Trainingsprozess basiert stark auf Clustern von GPUs, die sich austauschen, um Erkenntnisse aus Trainingsdatensätzen zu teilen.
Diese „Inter-GPU-Kommunikation“ erfordert sorgfältig strukturierte GPU-Cluster, um die Latenz zu minimieren und den Durchsatz zu maximieren. Aus diesem Grund investieren Unternehmen wie Tesla in physische „Supercluster“, die aus Tausenden von GPUs in großen Einrichtungen bestehen.
Aufgrund dieser strengen Anforderungen ist das Training generativer KI, insbesondere der komplexesten Modelle, oft eine kapitalintensive Angelegenheit, die hauptsächlich gut finanzierten Unternehmen wie Tesla, Meta, OpenAI, Microsoft, Google und Anthropic vorbehalten ist.
Jede dieser Organisationen hat ihre eigene Trainingsmethodik, nutzt jedoch im Allgemeinen ähnliche Hardware und kontrolliert ihre KI-Trainingsprozesse eng, was es neuen oder informellen Entwicklern schwer macht, mit vergleichbar parametrierten Modellen zu konkurrieren. Nous Research unterscheidet sich jedoch, indem es eine zugängliche und mächtige KI-Entwicklung unterstützt, die von jedem ohne Einschränkungen angepasst werden kann.
Was DisTrO besonders macht
Konventionelle KI-Trainingsmethoden erfordern die Synchronisierung vollständiger Gradienten zwischen mehreren GPUs und sind auf Hochgeschwindigkeitsverbindungen angewiesen. Im Gegensatz dazu minimiert DisTrO den Kommunikationsaufwand um vier bis fünf Größenordnungen.
Obwohl die spezifischen Algorithmen, die diese Effizienz ermöglichen, noch nicht vollständig offengelegt wurden, planen die Autoren, bald weitere Informationen zu teilen. Die Reduzierung wurde ohne auf amortisierte Analysen zurückzugreifen oder die Konvergenzrate zu beeinträchtigen, erreicht, was es ermöglicht, groß angelegte Modelle über langsamere Internetverbindungen (100 Mbps Download und 10 Mbps Upload, die für Verbraucher allgemein zugänglich sind) zu trainieren.
Das Forschungsteam testete DisTrO mit Metas Llama 2, einem großen Sprachmodell mit 1,2 Milliarden Parametern. Die Ergebnisse zeigten eine vergleichbare Trainingsleistung zu traditionellen Methoden bei gleichzeitig signifikant reduziertem Datenverkehr. Das Team weist darauf hin, dass dieses Modell das kleinste ist, das mit DisTrO effektiv funktioniert, und ist sich unsicher, wie sich die Bandbreitenreduktion mit der Modellgröße verhält.
Vorläufige Tests deuten auf eine potenzielle Bandbreitenreduktion von 1000-fach bis 3000-fach während des Pre-Trainings und bis zu 10000-fach während des Post-Trainings hin, ohne bemerkenswerte Leistungseinbußen. Sie spekulieren zudem, dass DisTrO auf das Training großer Diffusionsmodelle wie Stable Diffusion und ähnlicher Bildgenerierungsdienste angewendet werden könnte.
Die fortwährende Notwendigkeit von GPUs
Es ist wichtig zu beachten, dass DisTrO weiterhin GPUs benötigt, es ihnen jedoch ermöglicht, global verteilt zu arbeiten, anstatt in derselben Einrichtung zusammenzulokalisieren.
Konkret beinhaltete die Evaluation 32 H100 GPUs unter Verwendung der Distributed Data Parallelism (DDP)-Strategie, bei der jede GPU das gesamte Modell im VRAM speicherte. Dieses Framework ermöglichte rigorose Tests der Fähigkeiten von DisTrO und bewies, dass es die Konvergenzgeschwindigkeiten von AdamW+All-Reduce erreichen kann, während gleichzeitig die Kommunikationsbedürfnisse signifikant reduziert werden.
DisTrO könnte traditionelle Trainingsmethoden revolutionieren, ohne die Modellqualität zu opfern, und bietet eine skalierbare Lösung für groß angelegtes verteiltes Training. Durch die Senkung des Bedarfs an Hochgeschwindigkeitsverbindungen ermöglicht es kollaboratives Modelltraining über dezentrale Netzwerke, selbst unter Benutzern mit Standard-Internetdiensten.
Der Forschungsbericht untersucht außerdem die Auswirkungen von DisTrO auf föderiertes Lernen und dezentrales Training. Seine Effizienz könnte auch dazu beitragen, die Umweltbelastung des KI-Trainings zu minimieren, indem bestehende Infrastrukturen optimiert und die Abhängigkeit von großen Rechenzentren verringert wird.
Darüber hinaus könnten diese Innovationen das Paradigma des groß angelegten Modelltrainings von zentralisierten, ressourcenintensiven Rechenzentren zu verteilten, kollaborativen Methoden verschieben, die diverse Rechenressourcen nutzen.
Was kommt als Nächstes für Nous Research und DisTrO?
Das Forschungsteam lädt andere ein, sich ihnen anzuschließen und die Möglichkeiten von DisTrO zu erkunden. Vorläufige Berichte und zusätzliche Materialien sind auf GitHub verfügbar, und sie suchen aktiv nach Partnern, um diese innovative Technologie weiterzuentwickeln.
KI-Influencer wie @kimmonismus auf X haben diese Forschung als potenziell transformativ für das Feld gelobt und erklärt: „Das könnte alles verändern!“
Mit DisTrO verbessert Nous Research nicht nur die KI-Trainingsmöglichkeiten, sondern fördert auch ein inklusiveres Forschungsökosystem, das bedeutende Fortschritte in der künstlichen Intelligenz ermöglichen kann.