В недавнем партнерстве стартап AI Gradient и облачная платформа Crusoe расширили размер контекстного окна моделей Llama-3 до впечатляющих 1 миллиона токенов. Контекстное окно обозначает количество токенов ввода и вывода, с которыми может работать большая языковая модель (LLM), что критически важно для множества приложений.
Технологические компании и ведущие AI-лаборатории ведут жестокую конкуренцию за увеличение контекстных окон своих LLM. За несколько месяцев поддержка токенов выросла с нескольких тысяч до более чем миллиона. Однако модели с расширенными контекстными окнами, такие как Anthropic Claude (200k токенов), OpenAI GPT-4 (128k токенов) и Google Gemini (1 миллион токенов), преимущественно доступны в закрытых системах.
Необходимость в открытых LLM с длинным контекстом
Gradient сотрудничает с корпоративными клиентами, стремящимися интегрировать LLM в свои операции. Даже до выхода Llama-3 компания столкнулась с серьезными ограничениями контекста в проектах для клиентов. Например, кодовые копилоты — основные инструменты для программирования — обычно генерируют короткие фрагменты кода. Теперь компании стремятся улучшить эти возможности, чтобы разрабатывать целые модули кода.
"Для достижения этого языковая модель должна ссылаться на всю кодовую базу или несколько репозиториев GitHub," пояснил Лео Пекелис, главный ученый Gradient AI. Предоставление полной кодовой базы по частям было бы медленным и подверженным неточностям, так как модель не смогла бы получить доступ ко всему сразу.
"Возможность вводить целые кодовые базы в контекст языковой модели решает множество проблем, обеспечивая более точные и эффективные решения," добавил Пекелис.
Из-за ограничений на отправку данных третьим сторонам многие компании не могут использовать закрытые модели, такие как Gemini или Claude. Это побудило команду Gradient разработать собственную открытую модель с контекстом в 1 миллион токенов.
Вклад в открытую науку
Коммерциализация LLM снизила готовность AI-лабораторий делиться открытиями и исследованиями. Хотя компании продолжают расширять контекстные окна, они менее склонны раскрывать код, данные или стратегии, использованные для оптимизации моделей. Тем не менее, открытое научное сообщество по-прежнему стремится поделиться знаниями и продвигать модели. Gradient активно использовал исследовательские материалы из мировых университетов и институтов.
Используя версии Llama 3 с 8 и 70 миллиардами параметров, которая имеет стандартное контекстное окно в 8000 токенов, они реализовали техники из Berkeley AI Research, которые позволили обеспечить более длинные контексты без перегрузки памяти и вычислительных ресурсов. Исходный код был получен из открытого проекта в Сингапуре, а ключевые математические формулы — из лаборатории в Шанхае. Оценка производительности проводилась по бенчмаркам от Nvidia для сравнения их моделей с другими LLM с длинным контекстом, такими как Gemini.
“Многие из этих достижений были бы невозможны без открытого научного сообщества," отметил Пекелис. “Открытые исследования значимо влияют на нашу работу во всех сферах.”
Преодоление вычислительных вызовов
Доступ к вычислительным ресурсам является основной проблемой в исследованиях LLM. Большинство AI-лабораторий зависят от крупных кластеров GPU для обучения и тестирования. Gradient сотрудничает с Crusoe для изучения LLM с длинным контекстом, используя специализированное облако AI Crusoe для изучения экономичных способов разработки моделей.
"Это было замечательное время, так как мы запускали кластер [Nvidia] L40S," сказал Итан Петерсен, старший разработчик-адвокат Crusoe. "Мы стремились продемонстрировать, что эти чипы способствуют обширному обучению, а не только выводу."
Крупные технологические компании соревнуются за высококачественные GPU, такие как A100, H100 и предстоящий B100, каждый из которых стоит десятки тысяч долларов, в то время как серверные кластеры могут составлять миллионы. Crusoe предлагает эти GPU и настраивает решения для клиентов. Тесно сотрудничая с Gradient, они адаптировали кластер L40S, значительно снизив затраты на обучение.
“Наш подход с партнерами, такими как Gradient, сосредотачивается на предоставлении наиболее эффективных вычислительных решений на основе их потребностей, и в этом случае L40S был идеальным," отметил Патрик МаКгрегор, главный продуктовый директор Crusoe. "Мы предоставляем большую ценность, настраивая вычислительные предложения."
Пекелис отметил, что инновации, реализованные через оптимизацию сети на кластере L40S, позволили им быстро обучать модели и выпускать их сразу после запуска Llama-3. Другие облачные провайдеры не обладают такой же степенью гибкости в сотрудничестве, что усложняет кастомизацию конфигураций.
Техники оценки моделей
Одним из основных бенчмарков для оценки длинных контекстов является тест "иголка в стоге сена", где проверяется конкретная информация в длинной текстовой последовательности.
“Наши модели показывают почти идеальную производительность на этом тесте, эффективную до 2 миллионов токенов контекста, сопоставимую только с тем, что я видел у Gemini 1.5 Pro," сказал Пекелис.
Тем не менее, тесты "иголка в стоге сена" могут не полностью отражать общую эффективность контекста модели. Команда также использовала более сложные оценки, такие как множественные "иголки в стоге сена" или противоречивые иголки, где вводилась конфликтующая информация.
Они оценили свою модель, используя бенчмарк RULER от Nvidia, который включает 13 задач, предназначенных для оценки моделей языка с длинным контекстом и переменными длинами последовательностей и сложностями. Команда также улучшает способности моделей к обучению в контексте с множественными примерами, позволяя им динамически адаптироваться к новым задачам, включая сотни или тысячи примеров в запрос.
Корпоративные приложения длинных LLM
Пекелис считает, что открытые модели с длинным контекстом помогут компаниям и разработчикам создавать приложения на основе LLM.
“В настоящее время существует заметный разрыв между отдельными AI-приложениями и корпоративными решениями, которые отстают,” отметил он. "Позволяя языковым моделям обрабатывать больше информации в их контекстных окнах, открываются новые возможности."
Длинные контексты могут укрепить агентные системы, где несколько языковых моделей работают вместе, обрабатывая больше информации с меньшим количеством запросов. Кроме того, длинные LLM могут упростить сложные задачи обработки данных, такие как подражание стилю.
“Вместо того чтобы собирать и предварительно обрабатывать данные из различных источников для обучения модели, чтобы она имитировала мой стиль письма, вы просто вводите все мои прошлые электронные письма, и модель учится писать как я,” объяснил Пекелис.
Более того, LLM с обширными контекстами могут уменьшить зависимость от генерации с учетом извлечений (RAG), которая требует извлечения соответствующих документов для каждого запроса. Гипотетически, LLM с бесконечным контекстом мог бы включать все документы в запрос, выбирая наиболее актуальные разделы для каждого запроса, хотя все равно потребовались бы повторные запросы для каждой новой сессии чата из-за ограничений контекста.
Расширенные контекстные окна также снижают барьеры для создания прототипов и концептуальных доказательств, помогая командам по продуктам лучше понять потенциал языковых моделей.
“Часто обучение клиентов тому, что возможно, является критически важным первоочередным шагом,” заключил Пекелис. “Разработка прототипов или первоначальных примеров иллюстрирует трансформационный потенциал для предприятий.”