Улучшение крупных языковых моделей (LLM), учитывающих знания, выходящие за рамки их обучающих данных, имеет решающее значение для корпоративных приложений. Один из ведущих подходов к интеграции специализированных и клиентских знаний в LLM — это генерация с поддержкой извлечения (RAG). Однако базовые методы RAG часто оказываются недостаточными.
Для создания эффективных приложений LLM с дополнением данных необходимо внимательно учитывать несколько факторов. В недавнем исследовании, проведенном учеными Microsoft, предложена структура для классификации различных типов задач RAG в зависимости от необходимого внешнего данных и сложности рассуждений. "Приложения LLM с дополнением данных не являются универсальным решением", отмечают исследователи. "Реальные требования, особенно в экспертных областях, сложны и могут существенно различаться в зависимости от предоставленных данных и необходимого мышления."
Для навигации в этой сложности исследователи предлагают четырехуровневую классификацию пользовательских запросов:
- Явные факты: запросы, требующие извлечения прямо заявленных фактов из данных.
- Неявные факты: запросы, нуждающиеся в выводе неявной информации, часто с применением базового рассуждения.
- Интерпретируемые обоснования: запросы, требующие понимания и применения явных специфических для области правил из внешних ресурсов.
- Скрытые обоснования: запросы, требующие раскрытия неявных методов рассуждения, не указанных в данных.
Каждый уровень запросов представляет собой уникальные проблемы и требует индивидуальных решений.
Категории приложений LLM с дополнением данных
Запросы явных фактов
Эти запросы сосредоточены на простом извлечении фактической информации, прямо заявленной в данных. Основная характеристика — прямая зависимость от конкретных внешних данных. Здесь обычно используется базовый RAG, где LLM извлекает соответствующую информацию из базы знаний для генерации ответа. Однако на каждом этапе RAG возникают проблемы. Например, на этапе индексирования системе RAG необходимо управлять большими неструктурированными наборами данных, которые могут включать мультимодальные элементы, такие как изображения и таблицы. Модели парсинга и встраивания мультимодальных документов могут помочь сопоставить семантический контекст текстовых и нетекстовых элементов в общем пространстве.
На этапе извлечения информации важна релевантность извлеченных данных. Разработчики могут согласовывать запросы с хранилищами документов, используя синтетические ответы для повышения точности извлечения. Кроме того, на этапе генерации ответов тонкая настройка позволяет LLM различать релевантную информацию и игнорировать шум из базы знаний.
Запросы неявных фактов
Эти запросы требуют от LLM рассуждений, выходящих за рамки простого извлечения. Например, пользователь может задать вопрос: "Сколько продуктов продала компания X в последнем квартале?" или "Каковы основные отличия между стратегиями компании X и компании Y?" Эти вопросы требуют многопроходного ответа на вопросы, включающего данные из нескольких источников.
Сложность неявных фактов требует применения продвинутых методов RAG, таких как чередование извлечения с цепочкой рассуждений (IRCoT) и извлечение дополненных размышлений (RAT). Графы знаний в сочетании с LLM также предлагают структурированный метод для сложного рассуждения, эффективно связывая разрозненные концепции.
Запросы интерпретируемых обоснований
Эти запросы требуют от LLM применения специфических для области правил наряду с фактическим содержанием. "Запросы интерпретируемых обоснований представляют собой простую категорию, полагающуюся на внешние данные для обоснований," объясняют исследователи. Этот тип часто включает ясные правила или мыслительные процессы, относящиеся к конкретным задачам.
Чат-бот службы поддержки, например, может потребовать интеграции задокументированных протоколов обработки возвратов с контекстом клиента. Интеграция этих обоснований в LLM может быть сложной задачей, требующей техник тонкой настройки подсказок, включая обучение с подкреплением и оптимизированные оценки подсказок.
Запросы скрытых обоснований
Эти запросы представляют собой наибольшую проблему, так как они касаются методов рассуждения, встроенных в данные, но не явно указанных. Например, модели может понадобиться проанализировать исторические данные для выявления шаблонов, применимых к текущей проблеме.
"Навигация по запросам с скрытыми обоснованиями требует сложных аналитических техник, чтобы расшифровать и использовать скрытые знания, встроенные в разные источники данных," отмечают исследователи.
Эффективные решения для этих запросов могут включать обучение в контексте, чтобы обучить LLM выбирать и извлекать релевантную информацию. Специфическая для области тонкая настройка также может быть важна, позволяя модели заниматься сложным рассуждением и различать необходимые внешние данные.
Последствия для создания приложений LLM
Обзор и структура, предложенные исследованием Microsoft, иллюстрируют эволюцию LLM в использовании внешних данных для практических приложений и одновременно подчеркивают выявленные проблемы. Компании могут использовать эту структуру для информированных решений по интеграции внешних знаний в свои LLM. В то время как методы RAG решают многие ограничения базовых LLM, разработчики должны оставаться внимательными к возможностям и ограничениям выбранных методов, обновляя их до более сложных систем по мере необходимости.