Новое исследование открывает бесконечный контекст для языковых моделей
Недавнее исследование Google демонстрирует революционное усовершенствование в области больших языковых моделей (БЯМ) — внедрение Infini-attention. Эта инновационная техника позволяет БЯМ обрабатывать текст неограниченной длины, сохраняя постоянные требования к памяти и вычислительным ресурсам.
Понимание контекстного окна
Контекстное окно — это количество токенов, которые модель может обрабатывать одновременно. Например, если разговор с ChatGPT превышает его контекстное окно, производительность значительно снижается, поскольку более ранние токены могут быть отбрасываются.
С учетом того, что организации адаптируют БЯМ для конкретных приложений, интегрируя пользовательские документы и знания в свои запросы, внимание к увеличению длины контекста становится критически важным для достижения конкурентного преимущества.
Infini-attention: революционный подход для БЯМ
По словам исследователей Google, модели, использующие Infini-attention, могут эффективно управлять более чем одним миллионом токенов без увеличения нагрузки на память. Эта тенденция может теоретически продолжаться еще дальше.
Трансформеры, лежащие в основе БЯМ, традиционно функционируют с "квадратной сложностью", что означает, что удвоение размера входных данных с 1,000 до 2,000 токенов приводит к учетной памяти и времени вычислений в четыре раза больше. Эта неэффективность возникает из-за механизма самовнимания, при котором каждый токен взаимодействует с каждым другим.
Для снятия этих ограничений ранее проводились исследования, которые разработали различные методы удлинения контекстов БЯМ. Infini-attention соединяет традиционные механизмы внимания с модулем "компрессивной памяти", который эффективно справляется как с дальними, так и с краткосрочными контекстуальными зависимостями.
Принцип работы Infini-attention
Infini-attention сохраняет оригинальный механизм внимания, интегрируя компрессивную память для работы с расширенными входными данными. Когда входные данные превышают его контекстную длину, модель передает старые состояния внимания в компрессивную память, поддерживая постоянные параметры памяти для повышения эффективности. Итоговый результат получается путем объединения компрессивной памяти с локальным вниманием.
Исследователи утверждают: "Эта важная модификация слоя внимания трансформера позволяет существующим БЯМ расширяться до бесконечных контекстов через непрерывное предварительное обучение и дообучение."
Эффективность и приложения
Эффективность Infini-attention была оценена по стандартам для длинных входных последовательностей. В контексте языкового моделирования с большим контекстом Infini-attention продемонстрировала превосходные результаты, показав более низкие оценки запутанности — что указывает на более высокую согласованность — при значительно меньших затратах на память.
В тестах по "извлечению паролей" Infini-attention успешно извлекатель случайный номер из текста объемом до одного миллиона токенов, превосходя альтернативы в задачах суммирования текстов до 500,000 токенов.
Хотя Google не раскрыла конкретные детали модели или код для независимой верификации, результаты совпадают с наблюдениями за Gemini, который также поддерживает миллионы токенов в контексте.
Будущее БЯМ с длинным контекстом
БЯМ с длинным контекстом представляет собой важную область исследований среди ведущих лабораторий ИИ. Например, Claude 3 от Anthropic поддерживает до 200,000 токенов, а GPT-4 от OpenAI имеет контекстное окно до 128,000 токенов.
Одним из значительных преимуществ БЯМ с бесконечным контекстом является их потенциал для более легкой настройки приложений. Вместо того чтобы полагаться на сложные техники, такие как дообучение или генерация с дополнением информации (RAG), модель с бесконечным контекстом теоретически может справляться с множеством документов, точно определяя наиболее релевантный контент для каждого запроса. Кроме того, пользователи могли бы улучшить производительность конкретных задач с помощью обширных примеров ввода без необходимости в дообучении.
Тем не менее, бесконечный контекст не заменит существующие методы полностью. Скорее, он снизит входные барьеры, позволяя разработчикам быстро прототипировать приложения с минимальными затратами усилий. По мере принятия организациями этих достижений, оптимизация конвейеров БЯМ останется важной задачей для решения проблем с затратами, скоростью и точностью.