Meta setzt auf Transformator-Architektur mit der Einführung von Megalodon LLM.

Home KI-Nachrichten Meta setzt auf Transformator-Architektur mit der Einführung von Megalodon LLM.

Ein neues maschinelles Lernmodell, das von Forschern bei Meta und der University of Southern California entwickelt wurde, adressiert zentrale Herausforderungen der Transformer-Architektur, die entscheidend für den Fortschritt großer Sprachmodelle (LLMs) war. Das Modell, Megalodon genannt, erweitert das Kontextfenster auf Millionen von Token und minimiert gleichzeitig den Speicherbedarf. Experimentelle Ergebnisse zeigen, dass Megalodon vergleichbare Transformer-Modelle bei der Verarbeitung umfangreicher Texte übertrifft, was es als potenziellen Nachfolger der Transformer-Architektur positioniert.

Verständnis der Kontextfenster

Das "Kontextfenster" beschreibt die Anzahl der Token, die ein Modell gleichzeitig verarbeiten kann. Ein größeres Kontextfenster verbessert die Fähigkeit des LLM, längere Gespräche zu führen, umfangreiche Dokumente zu analysieren und das Lernen im Kontext zu optimieren. Die Erhöhung des Kontextfensters eines Transformers führt jedoch zu erheblichen Rechenkosten. Transformer arbeiten mit "quadratischer Komplexität", was bedeutet, dass sich bei Verdopplung der Eingabegröße sowohl der Speicher- als auch die Rechenzeit vervierfachen. Diese Beziehung ergibt sich aus dem Selbstaufmerksamkeitsmechanismus, bei dem jedes Element der Eingabesequenz mit jedem anderen verglichen wird.

Metas Megalodon basiert auf der 2022 eingeführten Methode der Moving Average Equipped Gated Attention (MEGA), die den Aufmerksamkeitsmechanismus optimiert und die Komplexität des Modells erheblich reduziert. Dies ermöglicht es dem LLM, längere Eingaben zu verarbeiten, ohne übermäßige Speicherkapazitäten zu beanspruchen. MEGA integriert exponentielle gleitende Durchschnitte (EMA), um die Bedeutung lokaler und langfristiger Token-Beziehungen in Einklang zu bringen und die Kohärenz beim Ausbau des Kontexts zu gewährleisten.

Wesentliche Innovationen in Megalodon

Megalodon verbessert MEGA durch mehrere architektonische Anpassungen, die seine Leistung mit dem traditionellen vollen Aufmerksamkeitsmechanismus von Transformern in Einklang bringen. Es verwendet "Chunk-wise Attention", bei dem Eingabesequenzen in feste Blöcke aufgeteilt werden, wodurch die Komplexität von quadratisch auf linear reduziert wird. Dieser Ansatz ermöglicht auch zusätzliches Parallelisieren und beschleunigt das Training des Modells.

Die Forscher trainierten eine 7-Milliarden-Parameter-Version von Megalodon mit 2 Billionen Token und benchmarkten sie gegen die Modelle Llama-2-7B und 13B. Die Ergebnisse zeigen, dass Megalodon-7B die Spitzenleistungen der Transformer, die für das Training von Llama-2-7B verwendet wurden, sowohl in der Trainingsperplexität als auch in verschiedenen nachgelagerten Aufgaben übertrifft. In einigen Fällen erreicht es sogar die Leistung von Llama-2-13B.

Obwohl Megalodon ein Kontextfenster von 4.000 Token bei etwas langsamerer Geschwindigkeit als Llama-2 beibehält, übertrifft es mit einer Kontextlänge von 32.000 Token dank verbesserter Recheneffizienz deutlich. Erste experimentelle Ergebnisse deuten darauf hin, dass Megalodon effektiv Sequenzen unbegrenzter Längen modellieren kann. Das Forschungsteam hat auch vielversprechende Ergebnisse in kleineren Experimenten mit verschiedenen Datenmodi erzielt und plant, Megalodon für multimodale Anwendungen anzupassen. Der Megalodon-Code ist auf GitHub unter einer MIT-Lizenz verfügbar, die eine uneingeschränkte Anpassung und kommerzielle Nutzung erlaubt.

Die Dominanz der Transformer

Trotz der fortdauernden Forschung an alternativen Architekturen, wie Mamba (kommerziell genutzt von AI21 Labs) und flüssigen neuronalen Netzwerken, die am MIT entwickelt wurden, bleiben Transformer die führende Architektur für Sprachmodelle. Meta setzt weiterhin auf Innovation mit Modellen wie Megalodon und verbessert gleichzeitig seine Transformer-Produktlinie, einschließlich der kürzlich veröffentlichten Llama-3.

Die Anpassung neuer Architekturen, um die umfangreiche Ecosystem von Tools und Bibliotheken für Transformer zu nutzen, stellt eine Herausforderung dar. Diese Tools erleichtern das Training, die Feinabstimmung und die Optimierung von Modellen für verschiedene Anwendungen und Geräte und verschaffen Transformers einen beständigen Vorteil. Forscher arbeiten auch daran, die Transformer-Architektur zu modifizieren, um ihre Rechenanforderungen zu verringern. Zum Beispiel zielt Googles Infini-Attention darauf ab, unbegrenzte Kontextfenster zu unterstützen, ohne den Speicherbedarf zu erhöhen, wobei aktuelle Modelle Eingaben von Hunderttausenden von Token verarbeiten können.

Da sich die KI-Forschung rasch weiterentwickelt, ist es wichtig zu erkennen, dass die Landschaft dynamisch ist. Als der Transformer 2017 eingeführt wurde, glaubten nur wenige an seinen tiefgreifenden Einfluss. Zukünftige Modelle könnten die Fähigkeiten von Transformern möglicherweise übertreffen.

Elon Musks ‘Not Bad’-Bewertung lenkt die Aufmerksamkeit auf Metas Llama 3 KI

Microsoft stellt VASA-1 vor: Ein KI-Framework, das menschliche Kopfaufnahmen mit Stimme und Gesang zum Leben erweckt.

Most people like

Tidalflow AI Personal Trainer

9.5K

Steigern Sie Ihre Gesundheitsreise mit einem KI-gestützten Personal Trainer Erleben Sie einen personalisierten Ansatz für Fitness und Wellness wie nie zuvor. Unser KI-gestützter Personal Trainer passt Trainingspläne und Gesundheitsstrategien an Ihre individuellen Bedürfnisse an, um eine Reise zu gewährleisten, die Ergebnisse maximiert und Ihr allgemeines Wohlbefinden fördert. Entdecken Sie noch heute die Zukunft des Gesundheitscoachings!

KI-Personal Trainer Fitness

Asseter.AI

44.1K

Revolutionäre Geschwindigkeitssteigerungs-Software für CG-Künstler

CG-Assets AI Image Recognition

The Multiverse AI

73K

Verbessern Sie Ihr Online-Image mit beeindruckenden professionellen Porträts.

professionelle Bewerbungsfotos AI Profile Picture Generator

Video To Blog

144.3K

Nutze das Potenzial deiner YouTube-Videos, indem du sie in fesselnde Blogbeiträge umwandelst. Diese effektive Strategie erhöht nicht nur die Reichweite und Interaktion deiner Inhalte, sondern hilft auch, dein Publikum zu diversifizieren. Durch die Umwandlung deiner Videoinhalte in schriftliches Format kannst du die SEO verbessern, mehr Besucher auf deinen Blog ziehen und wertvolle Ressourcen schaffen, die dein Publikum immer wieder anziehen. Entdecke, wie du dein visuelles Geschichtenerzählen nahtlos in fesselnde schriftliche Erzählungen verwandeln kannst!

Video AI Blog Writer

Find AI tools in YBX