AI2 verbessert das Open-Source OLMo-Modell mit einem vielfältigen Datensatz und einem zweistufigen Curriculum für eine optimierte Leistung.

Am Mittwoch stellte das Allen Institute for AI (AI2) ein Update für sein 7 Milliarden-Parameter-Modell OLMo 1.7-7B vor. Diese verbesserte Version nutzt ein umfangreicheres und vielfältigeres Dolma-Daten-Set sowie einen fortschrittlicheren Trainingsprozess.

Ursprünglich im Februar eingeführt, wird OLMo als „ein wirklich Open-Source, hochmodernes großes Sprachmodell“ positioniert, das umfassende Pretraining-Daten, Trainingscode, Modellgewichte und Bewertungsmetriken bereitstellt.

Das neueste Update ermöglicht es OLMo 1.7-7B, eine längere Kontextlänge von 2.048 auf 4.096 Tokens zu unterstützen, was zu einer verbesserten Leistung durch verfeinerte Trainingstechniken und architektonische Verbesserungen führt. Das Dolma 1.7-Datensatz umfasst beeindruckende 2,3 Billionen Tokens, die aus verschiedenen Materialien stammen – darunter Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg und Wikipedia.

Früher auf Dolma 1.5 angewiesen, das hauptsächlich Webdaten verwendete, verbessert das neue Dolma 1.7 die Fähigkeit des Modells, Aufgaben zu bearbeiten, die spezialisiertes Wissen, komplexes Denken und Programmierung erfordern, indem es die Datenquellen diversifiziert. AI2 hat bessere Duplikationsmethoden implementiert, um die Inhaltsqualität zu gewährleisten, indem Dokumente mit einem Duplikationsscore über einem festgelegten Schwellenwert entfernt wurden, der aus duplikationsspezifischen Absatzwerten berechnet wird.

Darüber hinaus führt Dolma 1.7 ein verfeinertes Qualitätssicherungssystem ein. Ein FastText-Klassifikator bewertet Dokumente anhand ihrer Qualität und unterscheidet gut strukturierte Inhalte von minderwertigem Material. Hochwertige Quellen umfassen Wikipedia, kleine Web-RSS-Feeds und Semantic Scholar, während minderwertige Dokumente adulte Inhalte und Falschmeldungsseiten beinhalten. Dieser Klassifikator wurde mit rund 25 GB Daten trainiert.

Zusätzlich verwendet OLMo 1.7 einen zweistufigen Trainingsplan. Zunächst trainieren Forscher das Modell von Grund auf. In der zweiten Phase wird das Modell weiter mit einem kuratierten Teilset von Dolma 1.7 trainiert, wobei zusätzliche 50 Milliarden Tokens genutzt werden, während die Lernrate schrittweise auf null gesenkt wird. Das kuratierte Hochqualitäts-Teilset umfasst alle möglichen Daten aus Wikipedia, OpenWebMath und Flan, während bestimmte Quellen ausgeschlossen und die Proportionen der verbleibenden Datensätze ausgewogen werden.

AI2 behauptet, dass diese Verbesserungen es OLMo 1.7-7B ermöglichen, sowohl Llama 2-7B im Massive Multitask Language Understanding (MMLU)-Benchmark als auch Llama-2-13B im GSM8K-Datensatz zu übertreffen.

Das aktualisierte OLMo-Modell ist unter der Lizenz Apache 2.0 verfügbar, während Dolma 1.7 unter ODC-BY lizenziert ist. Beide sind jetzt auf Hugging Face zugänglich.

Most people like

Find AI tools in YBX