В последние годы крупные языковые модели (LLM) совершили эволюцию от обработки всего лишь нескольких сотен слов до возможности работы с текстом, эквивалентным нескольким книгам одновременно. Эта расширенная емкость ввода, известная как "контекстное окно", открывает новые приложения и сценарии использования, которые ранее требовали значительных усилий в инженерии.
Недавнее исследование, проведенное учеными из Google DeepMind, исследует возможности "многозарядного" контекстного обучения (ICL) LLM с расширенными контекстными окнами. Результаты показывают, что включение сотен или даже тысяч примеров обучения в одном запросе может значительно улучшить производительность модели — ранее для таких улучшений требовалась дообработка.
Малообразное и Многозарядное ICL
ICL позволяет LLM осваивать новые задачи, используя примеры, представленные во время вывода. Это включает предоставление модели запроса, содержащего несколько решенных примеров вместе с решаемой задачей. Традиционно этот тип обучения назвали "малообразным обучением".
В отличие от дообработки, которая изменяет параметры модели, ICL является более доступным и удобным в использовании; однако он ограничен размером контекстного окна модели. Например, GPT-3 поддерживала контекстное окно около 2000 токенов, что ограничивало количество примеров, которые можно было включить в запрос.
Современные модели, однако, могут обрабатывать более 100 000 токенов, а модели вроде Gemini 1.5 Pro способны обрабатывать более миллиона токенов, позволяя использовать сотни или тысячи примеров в каждом запросе.
В своем исследовании ученые DeepMind изучили влияние многозарядного ICL на производительность LLM в различных задачах, включая решение математических задач, ответы на вопросы, моделирование вознаграждения, перевод малоизученных языков, планирование и анализ тональности. Некоторые запросы содержали до 8192 примеров ICL, и результаты показали, что производительность улучшается с добавлением новых примеров. В задачах перевода долгосрочный ICL на Gemini Pro достиг рекордных результатов по курдскому и тамильскому языкам. В задачах суммирования производительность многозарядного ICL сопоставима с специализированными дообработанными моделями, достигая оптимальной эффективности только при расширении контекстных примеров на сотни тысяч токенов.
Укрепленное и Ненадзорное ICL
Основной проблемой многозарядного ICL является необходимость в больших объемах качественных примеров с участием человека, особенно в задачах на рассуждение. Исследователи предлагают две стратегии, чтобы уменьшить зависимость от данных, созданных человеком.
Первая техника, "укрепленное ICL", заменяет созданные человеком примеры генерируемыми моделью аргументами. LLM создает несколько аргументов для данной задачи, используя запрос с цепочкой рассуждений в одно или несколько примеров. После проверки с помощью механизмов, подтверждающих правильность ответов, эти ответы формируют набор данных ICL, состоящий из пар "задача/аргумент".
Второй метод, "ненадзорное ICL", использует врожденные знания модели о задаче. Этот подход включает запрос, содержащий список нерешенных задач вместе с запросом на решение целевой задачи в формате нулевого или малообразного запроса, исключая необходимость в ответах, созданных человеком. Исследователи предполагают, что когда LLM обладает необходимыми знаниями для решения задачи, предоставление релевантного контекста помогает сосредоточиться на внутренних концепциях, необходимых для решения проблемы.
Ученые подтверждают, что как генерируемые моделью аргументы, так и запросы только с задачами могут снизить зависимость от примеров, созданных человеком.
Адаптация Поведения Модели
Исследование также показало, что многозарядное ICL может преодолеть предвзятости, возникшие при предварительном обучении, и эффективно осваивать задачи предсказания, не относящиеся к естественному языку, в которых малообразное ICL может испытывать трудности. Например, исследователи изменили метки набора данных анализа тональности, чтобы противоречить предвзятостям тональности, которые LLM приобрела во время обучения, и их эксперименты показали, что с добавлением большего числа примеров ICL производительность значительно улучшалась, почти достигая уровня производительности с использованием стандартных меток.
Более того, многозарядное ICL было успешно применено для перенастройки модели для линейной классификации и последовательных четностей — задач, которые обычно трудны без целенаправленного обучения. Это подчеркивает потенциал многозарядного обучения для адаптации к новым задачам и областям, которые могут не соответствовать данным для обучения LLM.
Последствия для Предприятий
Поскольку исследовательские центры ИИ работают над расширением контекстных окон LLM, некоторые эксперты утверждают, что дальнейшая дообработка и другие методы, такие как генерация с использованием Retrieval-Augmented Generation (RAG), могут больше не быть необходимыми. Предприятия могут просто создавать запросы с релевантной информацией, примерами и инструкциями по задаче.
Тем не менее, многозарядное ICL в настоящее время не масштабируемо. Для приложений LLM, получающих десятки миллионов запросов ежедневно, расширение каждого запроса на несколько сотен примеров может значительно повлиять на скорость и стоимость вывода.
Таким образом, многозарядное ICL может служить ценным инструментом на этапах исследования и прототипирования приложений LLM, позволяя разработчикам экспериментировать с различными методами проектирования запросов без ограничений контекстного окна. Тем не менее эффективное масштабирование продуктов будет зависеть от минимизации потребления токенов и использования меньших, более быстрых и экономически эффективных моделей.