Рост крупных языковых моделей (LLM) пробуждает интерес к моделям вложений — системам глубокого обучения, которые преобразуют различные типы данных в числовые представления. Модели вложений играют ключевую роль в генерации, основанной на извлечении (RAG), что является важным приложением LLM в корпоративной среде. Однако их потенциал выходит за рамки RAG. В прошлом году было зафиксировано значительное развитие приложений вложений, а 2024 год, вероятно, принесет еще больше инноваций.
Как работают вложения
Вложения преобразуют данные — такие как изображения или текстовые документы — в списки чисел, которые представляют их наиболее важные характеристики. Обучаясь на обширных наборах данных, модели вложений учатся различать различные типы информации. В компьютерном зрении вложения могут выделять такие особенности, как объекты, формы и цвета. В текстовых приложениях они захватывают семантическую информацию, связанную с концепциями, местоположениями, людьми, организациями и др.
В приложениях RAG модели вложений кодируют характеристики документов компании, храня каждое вложение в векторном хранилище — специализированной базе данных для сравнения вложений. Когда поступает новый запрос, система вычисляет его вложение и извлекает документы с аналогичными значениями. Соответствующий контент документа затем интегрируется в запрос, направляя LLM на генерацию контекстуально обоснованных ответов. Этот упрощенный процесс настраивает LLM на предоставление информации на основе уникальных данных, которые не включены в объем их обучения, решая проблемы вроде галлюцинаций, когда LLM генерируют неточные факты из-за недостатка информации.
За пределами базового RAG
Хотя RAG существенно улучшил функциональность LLM, преимущества извлечения и вложений простираются далеко за рамки простого сопоставления документов. «Вложения в первую очередь используются для извлечения — и для улучшения визуализации концепций», — говорит Джерри Лю, CEO LlamaIndex. «Однако извлечение гораздо шире и может поддерживать различные корпоративные приложения». По словам Лю, извлечение является фундаментальным компонентом в любом сценарии использования LLM. LlamaIndex разрабатывает инструменты и фреймворки для связи запросов LLM с разнообразными задачами, такими как взаимодействие с SQL базами данных и автоматизация рабочих процессов. «Извлечение имеет решающее значение для обогащения LLM актуальным контекстом, и я ожидаю, что большинство корпоративных приложений потребует какую-либо форму извлечения», — добавляет Лю.
Вложения также находят применение в областях, выходящих за рамки извлечения документов. Исследователи из Университета Иллинойс и Цинхуа разработали методы, которые используют вложения для выбора наиболее актуальных и разнообразных подмножеств тренировочных данных для кодирования LLM, значительно снижая затраты на обучение при сохранении высокого качества.
Вложения в корпоративных приложениях
«Векторные вложения позволяют работать с любыми неструктурированными или полуструктурированными данными. Семантический поиск — а RAG является одним из его видов — это лишь одно приложение», — утверждает Андрей Заярни, CEO Qdrant. «Расширение за пределы текстовых данных на изображения, аудио и видео имеет решающее значение, и новые многомодальные трансформеры будут способствовать этому». Qdrant уже внедряет модели вложений в различных приложениях, включая обнаружение аномалий, рекомендательные системы и анализ временных рядов. «С учетом множества еще не использованных сценариев, ожидается рост числа приложений по мере появления новых моделей вложений», — отмечает Заярни.
Все больше компаний используют модели вложений для анализа больших объемов неструктурированных данных, что позволяет им классифицировать отзывы клиентов и сообщения в социальных сетях для выявления тенденций и изменений настроений. «Вложения идеально подходят для компаний, стремящихся анализировать большие наборы данных ради выявления трендов и insights», — объясняет Нильс Реймерс, руководитель отдела вложений в Cohere.
Тонкая настройка вложений
В 2023 году были достигнуты успехи в тонкой настройке LLM с использованием нестандартных наборов данных; тем не менее, этот процесс остается сложным. Небольшое количество компаний, обладающих необходимыми данными и экспертизой, могут эффективно проводить тонкую настройку. «Скорее всего, будет переход от RAG к тонкой настройке — сначала используя RAG для доступности, а затем оптимизируя через тонкую настройку», — предсказывает Лю. «Хотя ожидается, что больше компаний будут заниматься тонкой настройкой своих LLM и вложений по мере улучшения моделей с открытым исходным кодом, их число, вероятно, останется меньше, чем тех, кто использует RAG, если только тонкая настройка не станет значительно проще».
Тонкая настройка вложений также имеет свои трудности, включая чувствительность к изменениям в данных. Обучение на коротких запросах может снизить производительность на более длинных, и наоборот. Если модели обучаются на вопросах "что", то они могут испытывать трудности с вопросами "почему". «Компании нуждаются в надежных внутренних ML- командах для эффективной тонкой настройки вложений, что делает решения "из коробки" более практичными в многих случаях», — советует Реймерс.
Тем не менее, сделаны шаги к оптимизации процесса обучения для моделей вложений. Исследование Microsoft предполагает, что предварительно обученные модели, такие как Mistral-7B, могут быть тонко настроены для задач вложения с использованием компактного набора данных, созданного мощным LLM, что упрощает традиционные ресурсоемкие методы.
Учитывая стремительное развитие LLM и моделей вложений, можно ожидать еще более захватывающих событий в предстоящие месяцы.