In einer aktuellen Partnerschaft haben das KI-Startup Gradient und die Cloud-Computing-Plattform Crusoe das Kontextfenster der Llama-3-Modelle auf beeindruckende 1 Million Tokens erweitert. Das Kontextfenster bezeichnet die Anzahl der Eingabe- und Ausgabetokens, die ein großes Sprachmodell (LLM) verarbeiten kann, und ist entscheidend für zahlreiche Anwendungen.
Technologieunternehmen und führende KI-Labore stehen in einem intensiven Wettkampf, um die Kontextfenster ihrer LLMs zu erweitern. Innerhalb von wenigen Monaten stieg die Token-Unterstützung von einigen Tausend auf über eine Million. Modelle mit umfangreichen Kontextfenstern, wie Anthropic Claude (200k Tokens), OpenAI GPT-4 (128k Tokens) und Google Gemini (1 Million Tokens), sind jedoch überwiegend in privaten Umgebungen verfügbar.
Die Notwendigkeit von Open-Source LLMs mit langem Kontext
Gradient arbeitet mit Firmenkunden zusammen, die LLMs in ihren Betrieb integrieren möchten. Selbst vor der Veröffentlichung von Llama-3 stieß das Unternehmen auf erhebliche Kontextbeschränkungen in Projekten. Beispielsweise erzeugen Coding-Co-Piloten, die wesentliche Werkzeuge für Programmierung sind, typischerweise kurze Code-Schnipsel. Jetzt streben Unternehmen an, diese Fähigkeiten zu erweitern, um ganze Codemodule zu erstellen.
„Um dies zu erreichen, muss das Sprachmodell auf eine gesamte Codebasis oder mehrere GitHub-Repositories zugreifen können,“ erklärte Leo Pekelis, Chief Scientist bei Gradient AI. Die Bereitstellung der gesamten Codebasis Stück für Stück wäre langsam und fehleranfällig, da das Modell nicht gleichzeitig auf alles zugreifen könnte.
„Die Fähigkeit, ganze Codebasen in den Kontext eines Sprachmodells einzugeben, löst viele Probleme und ermöglicht genauere und effizientere Lösungen,“ fügte Pekelis hinzu. Aufgrund von Einschränkungen beim Datenversand an Drittanbieter können viele Unternehmen private Modelle wie Gemini oder Claude nicht nutzen. Dies motivierte das Gradient-Team, ein eigenes Open-Source-Modell mit einem Kontext von 1 Million Tokens zu entwickeln.
Beiträge zur offenen Forschung
Die Kommerzialisierung von LLMs hat die Bereitschaft der KI-Labore verringert, Entdeckungen und Forschungsergebnisse zu teilen. Auch wenn Unternehmen ihre Kontextfenster weiterhin erweitern, sind sie weniger geneigt, Code, Daten oder Strategien zur Optimierung ihrer Modelle offenzulegen. Dennoch bleibt die Community der offenen Forschung engagiert, Wissen zu teilen und Modelle voranzubringen. Gradient hat stark von Forschungsbeiträgen weltweit tätiger Universitäten und Institute profitiert.
Durch die Verwendung der 8-Milliarden- und 70-Milliarden-Parameter-Versionen von Metas Llama 3, das ein Standard-Kontextfenster von 8.000 Tokens hat, setzten sie Techniken aus der Berkeley AI Research ein, die längere Kontextlängen ohne Überlastung von Speicher und Rechenressourcen ermöglichten. Der ursprüngliche Code stammt aus einem Open-Source-Projekt in Singapur, während wichtige mathematische Formeln von einem Labor in Shanghai bezogen wurden. Leistungsbewertungen wurden anhand von Benchmarks von Nvidia durchgeführt, um ihre Modelle mit anderen LLMs mit langem Kontext wie Gemini zu vergleichen.
„Ein großer Teil dieses Fortschritts wäre ohne die Community der offenen Forschung nicht möglich gewesen,“ bemerkte Pekelis. „Offene Forschung hat erhebliche Auswirkungen auf unsere Arbeit in allen Bereichen.“
Überwindung von Rechenherausforderungen
Der Zugang zu Rechenressourcen ist eine der größten Herausforderungen in der LLM-Forschung. Die meisten KI-Labore sind auf große GPU-Cluster angewiesen. Gradient arbeitete mit Crusoe zusammen, um LLMs mit langem Kontext zu untersuchen und die spezialisierte AI-Cloud von Crusoe für eine kosteneffektive Modellentwicklung zu nutzen.
„Das Timing war bemerkenswert, da wir ein [Nvidia] L40S-Cluster einführten,“ sagte Ethan Petersen, Senior Developer Advocate bei Crusoe. „Wir wollten zeigen, dass diese Chips umfangreiches Training ermöglichen und nicht nur für die Inferenz ausreicht.“
Große Technologieunternehmen wetteifern um leistungsstarke GPUs wie die A100, H100 und die kommende B100, deren Kosten sich jeweils auf Zehntausende von Dollar belaufen, wobei Servercluster sich auf Millionen summieren. Crusoe bietet diese GPUs an und passt Lösungen für Kunden an. In enger Zusammenarbeit mit Gradient wurde das L40S-Cluster maßgeblich optimiert, um die Trainingskosten erheblich zu senken.
„Unser Ansatz mit Partnern wie Gradient konzentriert sich darauf, die effizientesten Rechenlösungen entsprechend ihren Bedürfnissen anzubieten, und in diesem Fall war das L40S ideal,“ erklärte Patrick McGregor, Chief Product Officer bei Crusoe. „Wir bieten enormen Wert durch maßgeschneiderte Rechenangebote.“
Pekelis bemerkte, dass Innovationen durch Netzwerkoptimierung am L40S-Cluster es ermöglichten, Modelle schnell zu trainieren und sie kurz nach dem Start von Llama-3 freizugeben. Andere Cloud-Anbieter verfügen nicht über denselben Grad an kooperativer Flexibilität, was maßgeschneiderte Konfigurationen kompliziert.
Bewertungstechniken für Modelle
Ein entscheidender Benchmark zur Bewertung langer Kontextfenster ist der „Nadel-im-Heuhaufen“-Test, bei dem ein spezifisches Stück Information in einer langen Textsequenz getestet wird.
„Unsere Modelle erzielen bei diesem Test nahezu perfekte Ergebnisse, wirksam bis zu einer Kontextlänge von 2 Millionen, die nur vergleichbar ist mit dem, was ich bei Gemini 1.5 Pro gesehen habe,“ sagte Pekelis.
Dennoch könnten „Nadel-im-Heuhaufen“-Tests die Gesamtleistung eines Modells im Kontext nicht vollständig darstellen. Das Team setzte auch komplexere Bewertungen ein, wie mehrere „Nadeln im Heuhaufen“ oder adversarielle Nadeln, bei denen widersprüchliche Informationen eingeführt werden.
Sie bewerteten ihr Modell mit dem RULER-Benchmark von Nvidia, der 13 Aufgaben umfasst, die speziell zur Bewertung von LLMs mit langem Kontext und variablen Sequenzlängen und Komplexitäten entwickelt wurden. Das Team verbessert auch die Fähigkeiten der Modelle für das Lernen in-context, wodurch sie sich dynamisch an neue Aufgaben anpassen können, indem Hunderte oder Tausende von Beispielen in die Eingabe einfließen.
Unternehmensanwendungen von LLMs mit langem Kontext
Pekelis ist der Ansicht, dass offene Langzeitmodelle die Kluft für Unternehmen und Entwickler überbrücken werden, die LLM-basierte Anwendungen entwickeln möchten.
„Derzeit gibt es eine spürbare Diskrepanz zwischen einzelnen KI-Anwendungen und Unternehmenslösungen, die hinterherhinken,“ bemerkte er. „Die Fähigkeit, dass Sprachmodelle mehr Informationen in ihren Kontextfenstern verarbeiten können, eröffnet neue Möglichkeiten.“
Längere Kontexte können agentische Systeme ermöglichen – wo mehrere Sprachmodelle zusammenarbeiten – indem sie größere Datenmengen mit weniger Anfragen verarbeiten. Darüber hinaus können LLMs mit langem Kontext komplexe Datenverarbeitungsaufgaben, wie Stilimitation, vereinfachen.
„Anstatt Daten aus verschiedenen Quellen zu sammeln und vorzuverarbeiten, um ein Modell zu trainieren, das meinen Schreibstil imitiert, können Sie einfach alle meine bisherigen E-Mails eingeben, und das Modell lernt, wie ich schreibe,“ erklärte Pekelis.
Darüber hinaus könnten LLMs mit umfangreichen Kontextfenstern die Abhängigkeit von retrieval-augmented generation (RAG) verringern, die erfordert, relevante Dokumente für jede Anfrage abzurufen. Hypothetisch könnte ein LLM mit unendlichem Kontext alle Dokumente in die Eingabe einbeziehen und die relevantesten Abschnitte pro Anfrage auswählen – obwohl es dennoch wiederholte Anfragen für jede neue Chatsitzung benötigen würde aufgrund von Kontextbeschränkungen.
Erweiterte Kontextfenster senken auch die Hürden für die Erstellung von Prototypen und Machbarkeitsnachweisen und helfen Produktteams, das Potenzial von Sprachmodellen zu verstehen.
„Oft ist es ein wesentlicher erster Schritt, den Kunden zu zeigen, was möglich ist,“ schloss Pekelis. „Prototypen oder erste Beispiele zu entwickeln, veranschaulicht das transformative Potenzial für Unternehmen.“