Meta-Ingenieur: Nur zwei Kernkraftwerke nötig, um KI-Inferenz im Jahr 2024 zu betreiben

Der Direktor für Engineering im Bereich Generative AI bei Meta, Sergey Edunov, hat kürzlich eine überraschende Prognose zur Energieerfordernis für die wachsende Nachfrage nach KI-Anwendungen im kommenden Jahr abgegeben: Nur zwei neue Kernkraftwerke wären ausreichend.

Während eines von mir moderierten Panels beim Digital Workers Forum im Silicon Valley erklärte Edunov, der das Training von Metas Llama 2 Open-Source-Foundation-Modell leitet, dass diese Energiemenge die KI-Bedürfnisse der Menschheit für ein Jahr decken sollte. In Reaktion auf Bedenken bezüglich der globalen Kapazität, den steigenden Energiebedarf der generativen KI zu unterstützen, bemerkte er: „Dieses Problem können wir definitiv lösen.“

Edunov machte deutlich, dass seine Schätzung auf groben Berechnungen beruhte, aber er hielt sie für eine angemessene Einschätzung des für die KI-„Inference“ benötigten Stroms. Inference bezeichnet den Prozess, bei dem KI auf Anfragen reagiert oder Empfehlungen abgibt, und tritt nach dem umfassenden Training eines Modells auf.

Energiebedarf für Inference im Griff

Edunov differenzierte zwischen den Energieanforderungen für Inference und Training. Er erklärte, dass Inference den Großteil der Verarbeitung ausmachen würde, wenn Organisationen KI-Anwendungen implementieren. Bei seiner Berechnung ging er von Nvidias erwarteter Freigabe von ein bis zwei Millionen H100-GPUs im nächsten Jahr aus. Vollständig genutzt zur Token-Generierung für durchschnittlich große Sprachmodelle (LLMs), würde dies etwa 100.000 Token pro Person auf der Erde täglich entsprechen — eine erhebliche Menge.

Tokens sind die grundlegendsten Textelemente, die LLMs zur Sprachverarbeitung und -generierung verwenden. Der Energiebedarf für diese Berechnungen ist beträchtlich; jede H100-GPU verbraucht etwa 700 Watt. Unter Berücksichtigung zusätzlicher Energie für Rechenzentren und Kühlung schätzte Edunov diesen Wert auf rund 1 Kilowatt pro GPU. Letztlich kam er zu dem Schluss, dass nur zwei Kernreaktoren erforderlich wären, um alle GPUs effektiv zu betreiben. „Im Maßstab der Menschheit ist das nicht viel“, bemerkte Edunov und deutete an, dass die Gesellschaft durchaus 100.000 Tokens pro Tag und Person unterstützen könnte.

Training generativer KI: Die Datenherausforderung

Im Gegensatz dazu betonte Edunov, dass das Training von LLMs eine andere Herausforderung darstellt: die Beschaffung ausreichender Daten. Er schätzte, dass das gesamte öffentlich verfügbare Internet etwa 100 Billionen Tokens umfasst, die nach Reinigung und Duplikatsentfernung erheblich abnehmen — eventuell auf 10 bis 20 Billionen Tokens. Besonders wenn qualitativ hochwertige Daten Priorität haben, wären die verfügbaren Tokens noch weniger. Er äußerte Bedenken, dass Modelle der nächsten Generation möglicherweise ein Vielfaches mehr an Daten benötigen als frühere Iterationen. Wenn GPT-4 beispielsweise mit 20 Billionen Tokens trainiert wurde, könnte das nächste Modell etwa 200 Billionen Tokens erfordern, und solche Daten sind möglicherweise nicht leicht erhältlich.

Edunov hob hervor, dass Forscher Effizienztechniken untersuchen, um das Lernen von Modellen aus kleineren Datensätzen zu verbessern und alternative Datenquellen, wie multimodale Inputs (einschließlich Video), zu nutzen.

Panel-Einblicke zu Datenressourcen und Technologien

Edunov nahm an einem Panel mit dem Titel „Generating Tokens: The Electricity of the GenAI Era“ teil, neben Nik Spirin, Direktor für Generative AI bei Nvidia, und Kevin Tsai, Leiter der Lösungsarchitektur für Generative AI bei Google. Spirin stimmte Edunovs Gedanken zu und wies darauf hin, dass es zusätzliche Datenreservoirs jenseits des öffentlichen Internets gibt, auch wenn der Zugang eingeschränkt ist.

Spirin plädierte für starke Open-Source-Grundlagenmodelle, um Rechenredunanzen bei unabhängigen Bemühungen zu reduzieren. Dieser kollaborative Ansatz könnte auf vortrainierten Modellen basieren lassen, wodurch Organisationen sich auf die Entwicklung intelligenter Anwendungen konzentrieren könnten.

Tsai bemerkte, dass verschiedene aufkommende Technologien, wie Retrieval Augmented Generation (RAG), die Last des Trainings verringern und gleichzeitig die Modellleistung verbessern könnten. Kollaborative Initiativen könnten zu vielseitigen Modellen führen, die über verschiedene Anwendungen hinweg funktionieren, was er für entscheidend für die Nachhaltigkeit hält.

Zukünftige Prognosen zur Entwicklung von LLM

Zum Abschluss des Panels lud ich die Teilnehmer ein, ihre Prognosen für die Fortschritte der LLM in den nächsten zwei bis drei Jahren zu teilen. Sie stellten übereinstimmend fest, dass, obwohl die genaue Entwicklung der LLM-Verbesserungen ungewiss bleibt, der beträchtliche Wert, den sie bereits bieten, offensichtlich ist und eine umfassende Unternehmensakzeptanz innerhalb von zwei Jahren zu erwarten ist.

Edunov prognostizierte, dass wir innerhalb von drei bis vier Jahren Klarheit über die Realisierbarkeit von künstlicher allgemeiner Intelligenz (AGI) erhalten würden. Basierend auf vergangenen Technologietrends schlug Spirin vor, dass Unternehmen zunächst zögerlich bei der Übernahme von KI-Technologien sein könnten, aber innerhalb von zwei Jahren wahrscheinlich erheblicher Wert entstehen wird.

Tsai identifizierte Herausforderungen in der Lieferkette, die aus Nvidias Abhängigkeit von Hochgeschwindigkeits-Speicher für GPUs hervorgehen, als ein kritisches Engpass in der Modellverbesserung. Dennoch äußerte er Optimismus hinsichtlich Innovationen wie dem Blib-2-Projekt von Salesforce, das kleinere, effizientere Modelle schaffen möchte und möglicherweise aktuelle Einschränkungen umgeht.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles