Eine aktuelle Studie von Forschern der Tsinghua-Universität zeigt, dass durch die Umstrukturierung von Berechnungen und Hardware-Konfigurationen bei großen Sprachmodellen (LLMs) die Inferrauskosten erheblich gesenkt werden können. Sie stellen eine Technik namens „Attention Offloading“ vor, die kostengünstige GPUs für speicherintensive Aufgaben nutzt, sodass leistungsstarke Beschleuniger sich auf rechenintensive Operationen konzentrieren können.
Angesichts der hohen Kosten, der Knappheit und der großen Nachfrage nach High-End-AI-Beschleunigern bietet das Attention Offloading Unternehmen die Möglichkeit, ihre Hardware-Ressourcen beim großflächigen Einsatz von LLMs zu optimieren.
Zwei Arten von Berechnungen
Die LLM-Inferenz umfasst verschiedene Operationen, die strategisch organisiert werden müssen, um die verfügbare Speicherkapazität und Rechenleistung optimal zu nutzen. Diese Operationen lassen sich in zwei Hauptkategorien einteilen: rechengebunden und speichergebunden. Rechengebundene Operationen profitieren von schnelleren Beschleunigern wie dem A100 und H100, während speichergebundene Operationen, insbesondere der durch jedes neue Token ausgelöste Selbstaufmerksamkeitsmechanismus, eine großzügige Menge an Videospeicher (VRAM) erfordern.
Die Forscher merken an: „Diese speichergebundene Arbeitslast kollidiert mit den Stärken moderner Beschleuniger, was zu überlasteten Speichercontrollern führt, während die Rechenkerne untätig bleiben.“ Dieses Ungleichgewicht der Ressourcen verschärft sich mit zunehmender Sequenzlänge, wie bei längeren Benutzeraufforderungen oder Gesprächen mit dem Modell.
Die innovative Lösung: Attention Offloading
Gängige Ansätze konzentrieren sich typischerweise darauf, einheitliche Architekturen von High-End-Beschleunigern für die Inferenz zu skalieren. Unternehmen investieren oft stark in H100-Prozessoren, um ihre Inferenzkapazitäten zu erweitern, was zu hohen Kosten und suboptimalen Hardware-Nutzungen führt.
Die Forscher argumentieren: „Die einzigartigen Anforderungen der LLM-Generationsphase erfordern eine heterogene Architektur für mehr Effizienz und geringere Kosten.“ Ihre Studie legt nahe, dass verschiedene Arten von Beschleunigern für spezifische Aspekte der LLM-Inferenz geeignet sind. Beispielsweise sind Consumer-GPUs kostengünstige Optionen für speichergebundene Aufgaben, die im Vergleich zu High-End-Modellen dreimal mehr Speicherkapazität und Bandbreite pro Dollar bieten. Allerdings kann eine ausschließliche Abhängigkeit von diesen günstigeren Optionen aufgrund ihrer begrenzten Rechenleistung ineffizient sein.
Allerdings sind Aufmerksamkeitsberechnungen hochgradig parallelisierbar und können auf mehrere budgetfreundliche, speichereffiziente GPUs verteilt werden.
Implementierung einer heterogenen Architektur
Die Technik des Attention Offloadings beinhaltet die Schaffung von zwei unterschiedlichen Pools von Beschleunigern: einem, der sich auf die Rechenleistung konzentriert, und einem, der für die Speicherkapazität optimiert ist. So werden Aufmerksamkeitsaufgaben von kostengünstigen GPUs bearbeitet, während High-End-Beschleuniger andere Operationen verwalten.
Die Forscher erklären: „Diese heterogene Architektur ermöglicht ein Dienstsystem, das Rechenleistung, Speicherkapazität und Bandbreite effizient kombiniert, um die LLM-Inferenz ohne übermäßige Kosten zu verbessern.“ Diese strategische Ausrichtung der Hardware-Stärken auf die betrieblichen Anforderungen ermöglicht es Unternehmen, ihre Budgets zu maximieren, indem sie in eine ausgewogene Mischung aus speicher- und rechenoptimierten Beschleunigern investieren.
Bewältigung architektonischer Herausforderungen
Die Studie bewertet ferner die Herausforderungen, die mit dieser heterogenen Architektur verbunden sind, insbesondere die Bandbreite, die für die Verbindung der beiden Beschleuniger-Pools erforderlich ist. Die Ergebnisse zeigen, dass nicht nur Standard-Systembusse wie PCIe 4.0 ausreichen, sondern auch Netzwerktechnologien wie 200Gb Infiniband und Ethernet, die bereits in KI-Rechenzentren verbreitet sind, angemessen sind.
Durch den Einsatz fortschrittlicher Scheduling- und Pipeline-Techniken wird die Latenz minimiert, die durch die nicht uniforme Architektur verursacht wird, und gewährleistet, dass Speicher- und Rechenressourcen gleichzeitig arbeiten, ohne durch sequenzielle Berechnungen behindert zu werden.
Einführung von Lamina
Die Forscher entwickelten Lamina, ein verteiltes heterogenes LLM-Inferenzsystem, das Attention Offloading einsetzt. Lamina nutzt Consumer-GPUs zur Speicherung von berechneten Aufmerksamkeitswerten (dem „KV-Cache“) und zur Durchführung von Aufmerksamkeitsoperationen, während High-End-Beschleuniger Modellparameter und andere Inferenzaufgaben verwalten. Diese Geräte können innerhalb derselben physikalischen Maschine oder über mehrere Knoten verteilt arbeiten.
Durch das Offloading von KV-Cache-Speicher und Aufmerksamkeitsberechnungen an speichereffiziente GPUs kann Lamina Batchgrößen verarbeiten, die 10,7 bis 64 Mal größer sind als die von vLLM, einer weit verbreiteten LLM-Serving-Plattform. Diese Effizienz ist entscheidend, um kostspielige rechenoptimierte Beschleuniger optimal zu nutzen, insbesondere bei großen LLM-Einsätzen.
Experimentelle Auswertungen zeigen, dass Lamina Durchsatzraten erzielt, die im Vergleich zu bestehenden Lösungen für 13B- und 33B-Modelle 1,48 bis 12,1 Mal höher sind.
Da LLMs zunehmend zum Standard werden, benötigen Unternehmen innovative Strategien für kosteneffiziente Inferenz und reduzierte Investitionen in Beschleuniger – ein Ziel, das das Attention Offloading erfolgreich erfüllt. Obwohl die Forscher den Code für Lamina noch nicht veröffentlicht haben, sind die Grundlagen klar umrissen, was wahrscheinlich zu einer schnellen Implementierung durch die Open-Source-Community führen wird.