Инновационная техника Google предоставляет LLM неограниченное контекстуальное понимание.

Home Новости ИИ Инновационная техника Google предоставляет LLM неограниченное контекстуальное понимание.

Updated on апрель 12 2024

Новое исследование открывает бесконечный контекст для языковых моделей

Недавнее исследование Google демонстрирует революционное усовершенствование в области больших языковых моделей (БЯМ) — внедрение Infini-attention. Эта инновационная техника позволяет БЯМ обрабатывать текст неограниченной длины, сохраняя постоянные требования к памяти и вычислительным ресурсам.

Понимание контекстного окна

Контекстное окно — это количество токенов, которые модель может обрабатывать одновременно. Например, если разговор с ChatGPT превышает его контекстное окно, производительность значительно снижается, поскольку более ранние токены могут быть отбрасываются.

С учетом того, что организации адаптируют БЯМ для конкретных приложений, интегрируя пользовательские документы и знания в свои запросы, внимание к увеличению длины контекста становится критически важным для достижения конкурентного преимущества.

Infini-attention: революционный подход для БЯМ

По словам исследователей Google, модели, использующие Infini-attention, могут эффективно управлять более чем одним миллионом токенов без увеличения нагрузки на память. Эта тенденция может теоретически продолжаться еще дальше.

Трансформеры, лежащие в основе БЯМ, традиционно функционируют с "квадратной сложностью", что означает, что удвоение размера входных данных с 1,000 до 2,000 токенов приводит к учетной памяти и времени вычислений в четыре раза больше. Эта неэффективность возникает из-за механизма самовнимания, при котором каждый токен взаимодействует с каждым другим.

Для снятия этих ограничений ранее проводились исследования, которые разработали различные методы удлинения контекстов БЯМ. Infini-attention соединяет традиционные механизмы внимания с модулем "компрессивной памяти", который эффективно справляется как с дальними, так и с краткосрочными контекстуальными зависимостями.

Принцип работы Infini-attention

Infini-attention сохраняет оригинальный механизм внимания, интегрируя компрессивную память для работы с расширенными входными данными. Когда входные данные превышают его контекстную длину, модель передает старые состояния внимания в компрессивную память, поддерживая постоянные параметры памяти для повышения эффективности. Итоговый результат получается путем объединения компрессивной памяти с локальным вниманием.

Исследователи утверждают: "Эта важная модификация слоя внимания трансформера позволяет существующим БЯМ расширяться до бесконечных контекстов через непрерывное предварительное обучение и дообучение."

Эффективность и приложения

Эффективность Infini-attention была оценена по стандартам для длинных входных последовательностей. В контексте языкового моделирования с большим контекстом Infini-attention продемонстрировала превосходные результаты, показав более низкие оценки запутанности — что указывает на более высокую согласованность — при значительно меньших затратах на память.

В тестах по "извлечению паролей" Infini-attention успешно извлекатель случайный номер из текста объемом до одного миллиона токенов, превосходя альтернативы в задачах суммирования текстов до 500,000 токенов.

Хотя Google не раскрыла конкретные детали модели или код для независимой верификации, результаты совпадают с наблюдениями за Gemini, который также поддерживает миллионы токенов в контексте.

Будущее БЯМ с длинным контекстом

БЯМ с длинным контекстом представляет собой важную область исследований среди ведущих лабораторий ИИ. Например, Claude 3 от Anthropic поддерживает до 200,000 токенов, а GPT-4 от OpenAI имеет контекстное окно до 128,000 токенов.

Одним из значительных преимуществ БЯМ с бесконечным контекстом является их потенциал для более легкой настройки приложений. Вместо того чтобы полагаться на сложные техники, такие как дообучение или генерация с дополнением информации (RAG), модель с бесконечным контекстом теоретически может справляться с множеством документов, точно определяя наиболее релевантный контент для каждого запроса. Кроме того, пользователи могли бы улучшить производительность конкретных задач с помощью обширных примеров ввода без необходимости в дообучении.

Тем не менее, бесконечный контекст не заменит существующие методы полностью. Скорее, он снизит входные барьеры, позволяя разработчикам быстро прототипировать приложения с минимальными затратами усилий. По мере принятия организациями этих достижений, оптимизация конвейеров БЯМ останется важной задачей для решения проблем с затратами, скоростью и точностью.

xAI Илонa Маска представляет Grok-1.5V: первый мультимодальный ИИ-модель

RecurrentGemma от Google интегрирует передовой языковой ИИ для повышения производительности edge-устройств.

Most people like

Miro

29.4M

Miro позволяет распределённым командам беспрепятственно сотрудничать и innovate, преодолевая расстояния с помощью мощных инструментов для эффективной командной работы.

визуальное сотрудничество AI Team Collaboration

Quiz Wizard

19.2K

Quiz Wizard — это инновационная платформа на основе ИИ, разработанная для создания индивидуализированных вопросов с выбором ответа и специализированных учебных материалов.

ИИ AI Education Assistant

AIApply

AlApply: инструмент для поиска работы с помощью искусственного интеллекта

Инструмент поиска работы с помощью ИИ Resume Builder

Lightning AI

497K

Lightning AI ускоряет обучение и развертывание AI-моделей с использованием PyTorch, позволяя разработчикам эффективно оптимизировать свои рабочие процессы в области машинного обучения.

Искусственный интеллект платформа AI Developer Tools

Find AI tools in YBX