В среду Институт искусственного интеллекта Allen (AI2) представил обновление своей модели на 7 миллиардов параметров OLMo 1.7-7B. Эта усовершенствованная версия использует более обширный и разнообразный набор данных Dolma, а также современный процесс обучения.
OLMo была впервые представлена в феврале как "поистине открытая, передовая модель обработки естественного языка" с полным набором данных предобучения, кодом для обучения, весами модели и метриками оценки.
Новое обновление позволяет OLMo 1.7-7B поддерживать более длинные контекстные последовательности — с 2048 до 4096 токенов, что значительно улучшает производительность благодаря уточненным методам обучения и архитектурным улучшениям. Набор данных Dolma 1.7 включает в себя впечатляющие 2,3 триллиона токенов, собранных из разнообразных источников, включая Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg и Wikipedia.
Ранее использовавшая набор данных Dolma 1.5, который базировался в основном на веб-данных, новая версия Dolma 1.7 улучшает способность модели решать задачи, требующие специализированных знаний, сложного мышления и программирования, за счет разнообразия источников данных. AI2 внедрил улучшенные методы удаления дубликатов для обеспечения качества контента, исключая документы с уровнем дублирования, превышающим заранее установленный порог, который рассчитывается на основе уровня дублирования на уровне абзаца.
Также Dolma 1.7 представляет усовершенствованную систему фильтрации качества. Классификатор FastText оценивает документы по их качеству, выделяя хорошо структурированный контент и материалы низкого качества. К источникам высокого качества относятся Wikipedia, RSS-каналы Small Web и Semantic Scholar, а низкокачественные документы включают взрослый контент и сайты с дезинформацией. Этот классификатор был обучен на данных объемом примерно 25 ГБ.
Кроме того, OLMo 1.7 использует двухступенчатую учебную программу. Сначала исследователи обучают модель с нуля. На втором этапе модель дополнительно обучается с помощью курируемого поднабора Dolma 1.7, используя еще 50 миллиардов токенов, постепенно уменьшая скорость обучения до нуля. Курируемый поднабор формируется за счет включения всех возможных данных из Wikipedia, OpenWebMath и Flan, исключая определенные источники и балансируя пропорции оставшихся наборов.
AI2 утверждает, что эти усовершенствования позволяют OLMo 1.7-7B превзойти как Llama 2-7B в рамках бенчмарка Massive Multitask Language Understanding (MMLU), так и Llama-2-13B на наборе данных GSM8K.
Обновленная модель OLMo доступна по лицензии Apache 2.0, в то время как Dolma 1.7 предлагается по лицензии ODC-BY. Оба продукта уже доступны на Hugging Face.