Große Sprachmodelle (LLMs) werden in der Regel auf umfangreichen Datensätzen trainiert, die sowohl Text als auch Code enthalten. Während Code für Modelle, die auf Programmieraufgaben fokussiert sind, entscheidend ist, wird seine Einbeziehung zunehmend auch bei LLMs, die für Anwendungen ohne Codierung konzipiert sind, üblich.
In einer aktuellen Studie untersuchten Forscher von Cohere, wie sich das Vorhandensein von Code-Daten im Vortraining von LLMs auf die Gesamtleistung bei verschiedenen Aufgaben außerhalb der Programmierung auswirkt. „Obwohl Praktiker anekdotisch zugestimmt haben, dass Code-Daten für die Leistung von LLMs entscheidend sind, gibt es nur begrenzte Forschung, die ihren genauen Einfluss auf Nicht-Code-Aufgaben analysiert“, bemerkten die Forscher.
Ihre Untersuchung bestätigt, dass Code die Leistung von LLMs bei einer Vielzahl von Nicht-Coding-Aufgaben erheblich steigert, was bedeutende Auswirkungen auf reale Trainingsanwendungen hat.
Untersuchung des Einflusses von Code
Die Forscher führten eine Reihe von Experimenten durch, um zu bewerten, wie Code die allgemeine LLM-Leistung beeinflusst. Wesentliche Faktoren waren die Menge an Code in den Trainingsdaten, der Zeitpunkt der Code-Einführung während des Trainings, die Qualität des Codes und die Modellgrößen.
Mit einem zweistufigen Trainingsansatz führten sie ein „fortgesetztes Vortraining“ auf bereits trainierten Modellen durch, wobei unterschiedliche Verhältnisse von Text und Code über eine feste Anzahl von Tokens integriert wurden. Dies wurde durch eine „Abkühlphase“ ergänzt, die während der letzten Trainingsphasen einem höheren Qualitätsstandard der Datensätze Priorität einräumte.
Das Basis-Modell wurde ausschließlich mit Text trainiert. Weitere Modelle wurden auf ausgewogenen Datensätzen aus Text und Code oder ausschließlich mit Code vor der Umstellung auf Text vortrainiert. Sie bewerteten Modelle mit 470 Millionen bis 2,8 Milliarden Parametern anhand verschiedener Benchmarks, die sich auf Weltwissen, natürliches Sprachverständnis und Codierleistung konzentrierten.
Die Vorteile von Code für Nicht-Coding-Aufgaben
Die Experimente zeigten, dass Code die Leistung von LLMs bei Nicht-Coding-Aufgaben erheblich verbesserte. In der natürlichen Sprachverarbeitung übertrafen Modelle, die mit Code trainiert wurden, durchgehend ihre textbasierten Pendants. Bemerkenswert ist, dass ein exklusives Vortraining mit Code die höchste Leistung in diesen Benchmarks erbrachte.
„Das deutet darauf hin, dass die Initialisierung von einem vortrainierten Modell mit einer Mischung aus Code die natürlichen Sprachverarbeitungsaufgaben positiv beeinflusst“, erklärten die Forscher.
Für Aufgaben zum Weltwissen ergab ein ausgewogener Datensatz aus Code und Text während des Vortrainings die besten Ergebnisse. Die Forscher schlugen vor, dass „optimale Leistungen bei Aufgaben zum Weltwissen auf einem ausgewogenen Datenmix für die Initialisierung und einem höheren Textanteil während des fortgesetzten Vortrainings basieren“.
In generativen Aufgaben übertrafen sowohl Code-only- als auch ausgewogene Modelle die textbasierten Modelle, was darauf hindeutet, dass die Einbeziehung von Code nicht nur das reasoning verbessert, sondern auch die generative Qualität steigert.
Darüber hinaus stellten die Forscher fest, dass die Vorteile der Code-Integration mit der Modellgröße zunahmen, wobei die größten Gewinne im Bereich Weltwissen und Codierleistung beobachtet wurden, gefolgt von moderaten Verbesserungen im natürlichen Sprachverständnis.
„Diese Ergebnisse deuten darauf hin, dass der Kompromiss zwischen natürlichen Sprachaufgaben und Codegenerierung mit wachsender Modellgröße intensiver wird“, erklärten sie.
Obwohl LLMs häufig bei größeren Modellen emergentes Verhalten zeigen, konnten die Forscher aufgrund von Kostenbeschränkungen keine sehr großen Modelle testen. Sie sind jedoch zuversichtlich, dass ihre Ergebnisse auch auf größere Modelle anwendbar sind. „Da unsere Ergebnisse von 470 Millionen bis 2,8 Milliarden Parametern gelten, glauben wir, dass sie auch für noch größere Modelle und Tokenbudgets zutreffen“, bemerkten sie.
Die Studie zeigte weiterhin, dass die Einbeziehung von hochwertigem synthetischem Code in die Vortrainingsdaten die Leistung erheblich steigert und die Einschränkungen des verfügbaren, von Menschen generierten Codes angeht. „Unser synthetischer Code wurde aus Problemstellungen entwickelt, um verifizierte Python-Lösungen zu erzeugen“, sagte Viraat Aryabumi, der Hauptautor und Forschungsstipendiat bei Cohere. „Das eröffnet zukünftiges Potenzial, da die Nutzung eines leistungsstarken Lehrmodells entscheidend ist, um effektiven synthetischen Code zu generieren.“
Zusätzlich fanden sie heraus, dass die Integration von code-nahen Daten, wie GitHub-Pull-Requests und Commits, die reasoning-Fähigkeiten steigerte.
Die Einbeziehung von Code in die Abkühlphase führte zu weiteren Leistungssteigerungen bei Nicht-Coding-Aufgaben und bot wertvolle Einblicke für Unternehmen, die ihre Modelle mit spezifischen Daten optimieren möchten, anstatt von Grund auf neu zu trainieren. „Die Abkühlphase steht in engem Zusammenhang mit dem Fine-Tuning bezüglich Kosten, Datenqualität und Ressourcenanforderungen, was erhebliche Fortschritte bringt. Wir empfehlen, Code während des gesamten Trainingsprozesses einzubeziehen“, betonte Aryabumi. „Die Nutzung hochwertiger Codebasis wie interner Code-Basen und code-näher Daten kann auch während der Abkühlphase zu besseren Ergebnissen führen.“
Da Cohere sich auf die Entwicklung von LLMs für Unternehmensanwendungen konzentriert, könnten diese Ergebnisse zukünftige Modell- und Produktimplementierungen beeinflussen, möglicherweise mit einer Vielzahl von vortrainierten Modellen, die auf unterschiedliche Mischungen von Text und Code für spezifische Aufgaben zugeschnitten sind. Unternehmen können diese Modelle dann auf proprietären Daten feinabstimmen, um die optimale Leistung zu erzielen.
„Unsere Ergebnisse sind für Entwickler äußerst relevant und werden wahrscheinlich zur Veröffentlichung effizienterer Modelle führen“, erklärte Aryabumi. „Überraschend ist, wie Code die Leistung über Coding-bezogene Aufgaben hinaus steigert, und das beeinflusst unseren Ansatz bei der Entwicklung modernster Modelle.“