В недавнем исследовании ученые из Meta, Ecole des Ponts ParisTech и Université Paris-Saclay предложили новый подход к повышению точности и скорости работы крупных языковых моделей ИИ (LLM), позволяя им одновременно предсказывать несколько токенов. Эта инновация ставит под сомнение традиционную авто-регрессионную модель, которая предсказывает один токен за раз.
Преимущества предсказания нескольких токенов
Хотя предсказание нескольких токенов не подходит для каждой LLM или языковой задачи, оно предлагает значительные преимущества в определенных сценариях, таких как ускорение генеративных задач до трех раз быстрее, чем традиционные методы. Несмотря на возможность дальнейшего совершенствования, эта техника может стать мощным инструментом в некоторых приложениях LLM.
Проблемы предсказания следующего токена
Традиционный метод обучения LLM называется "предсказание следующего токена". Эта методика самообучения включает представление модели последовательности токенов с целью предсказания следующего токена, который затем добавляется к входным данным для дальнейших предсказаний. Этот итеративный процесс, применяемый к обширным текстовым корпусам, позволяет модели обучаться созданию связного текста.
Однако ученые выявили ограничения подхода предсказания следующего токена в развитии языковой обработки, приобретения знаний и навыков рассуждения. Сосредоточение исключительно на одном токене за раз может сделать модели чрезмерно чувствительными к локальным паттернам, игнорируя рассуждения, требующие более широкого контекста. Кроме того, предсказание следующего токена требует обширных наборов данных для достижения уровней беглости, которые люди достигают с меньшим объемом текста. Согласно недавнему исследованию Meta, "обучение языковых моделей предсказывать несколько будущих токенов одновременно приводит к более высокой эффективности выборки".
Изучение предсказания нескольких токенов
В отличие от этого, предсказание нескольких токенов направляет LLM на предсказание нескольких будущих токенов одновременно на каждой позиции в обучающих данных. Исследователи представляют простую архитектуру предсказания нескольких токенов, которая не требует дополнительных затрат по времени обучения или памяти. Эта модель основана на устоявшейся архитектуре Transformer, которая является основой для большинства LLM, но с модификациями. Вместо генерации одного выходного значения она включает несколько независимых выходных голов для каждого предсказания токена.
Реализация предсказания нескольких токенов
В процессе вывода модель использует традиционный метод предсказания следующего токена для каждой выходной головы, применяя дополнительные головы для оптимизации процесса декодирования. Этот фреймворк опирается на предыдущие работы в данной области. "Хотя это экономичный и простой метод, предсказание нескольких токенов значительно улучшает обучение более быстрых и мощных моделей Transformer", заявляют исследователи.
Результаты и наблюдения
Команда протестировала свою стратегию предсказания нескольких токенов на моделях с количеством параметров от 300 миллионов до 13 миллиардов. Их результаты выявляют заметные закономерности: меньшие модели показывают меньшую выгоду от предсказания нескольких токенов, которое становится все более эффективным с увеличением размера модели. Например, модели, обученные для предсказания 4 токенов, продемонстрировали значительное улучшение результатов на несколько процентных пунктов по сравнению с предсказаниями одного токена на бенчмарке MBPP для программирования.
Исследователи делают вывод: "Возможно, используя те же вычислительные ресурсы, достичь лучшей производительности крупных языковых моделей с помощью предсказания нескольких токенов". Более того, предсказание нескольких токенов ускоряет скорость вывода, делая модели до трех раз быстрее при различных размерах партий. "Предварительное обучение с использованием предсказания нескольких токенов повышает точность дополнительных голов по сравнению с простым доработкой модели предсказания следующего токена, раскрывая полный потенциал само-спекулятивного декодирования", объясняют они.
Исследование также подчеркивает, что предсказание нескольких токенов побуждает модель изучать долговременные паттерны, особенно в экспериментах с "байтовой токенизацией", где каждый байт рассматривается как отдельный токен. В этих случаях предсказание нескольких байтов значительно превзошло базовые модели с одиночными байтами, что критически важно для приложений, не имеющих предопределенного словаря.
Будущие направления исследований
Несмотря на свои преимущества, предсказание нескольких токенов не лишено проблем. Определение оптимального количества предсказываемых токенов зависит от задачи и размера модели. Исследователи изучают дальнейшие направления исследований, включая автоматизированные методы для выявления лучшего количества токенов для предсказания и динамику между размерами словарей и стратегиями предсказания нескольких токенов.
Это исследование обещает принести пользу для корпоративных приложений, потенциально обеспечивая повышенные скорости вывода и улучшенную точность для генеративных задач, таких как завершение кода—без значительных изменений в существующей архитектуре LLM, что обеспечивает совместимость с другими методами оптимизации в рамках Transformer.