DataStax Улучшает Разработку Генеративного ИИ с Новым API Данных
Компания DataStax представила новый API данных, который упрощает создание приложений генеративного ИИ с использованием технологии retrieval augmented generation (RAG) для разработчиков. Будучи ведущим поставщиком открытой базы данных Apache Cassandra, DataStax поддерживает свой облачный сервис AstraDB с помощью этой технологии. В 2023 году они добавили возможности векторной базы данных на свою платформу, заняв место среди ключевых игроков на рынке. На недавнем мероприятии генеральный директор DataStax уверенно назвал Cassandra «лучшей базой данных для генеративного ИИ».
Расп unlocking Потенциал Векторных Баз Данных
Возможности векторных баз данных играют важную роль в приложениях RAG, которые используют большие языковые модели (LLM) и платформы данных для создания точных и индивидуализированных результатов. С июля 2023 года DataStax предлагает векторные возможности в AstraDB; однако пользователям приходилось использовать Cassandra Query Language (CQL) для запросов к данным. Новый API данных изменяет эту ситуацию, позволяя разработчикам использовать Python и JavaScript для взаимодействия с базой данных. Это обновляет конкурентную среду, приближая DataStax к специализированным векторным базам данных, таким как Pinecone, недавно внедрившему функциональность серверлесс.
«Существовала постоянная борьба между нативными векторными базами данных, которые поддерживают только векторные запросы, и гибридными базами, превосходящими в моделировании запросов», — сказал Эд Анафф, директор по продуктам DataStax. «Наша цель заключалась в том, чтобы объединить эти подходы, и именно этого достигает новый API данных».
Трансформация Разработки Приложений RAG
Хотя новый API не вводит новых векторных возможностей в AstraDB, он упрощает процесс разработки. Анафф отметил, что с начала предоставления векторных возможностей около половины новых пользователей AstraDB сосредоточены на приложениях генеративного ИИ. Проблема заключалась в том, что эти разработчики в основном использовали Python и JavaScript, которые не поддерживались для доступа к данным в AstraDB.
До запуска API разработка ИИ-приложений требовала глубоких знаний CQL, что включало сложное моделирование данных, не подходящее для простоты разработки приложений RAG. Запросы также были менее оптимизированы для извлечения векторных данных.
Новый API данных решает эти проблемы, автоматически управляя векторизацией, предлагая удобный интерфейс на Python и JavaScript и улучшая производительность за счет эффективного хранения и индексации векторных данных на уровне базы данных. Это уменьшает кривую обучения и повышает производительность по сравнению с использованием существующих API Cassandra.
Современный Подход к Взаимодействию с Базами Данных
Традиционные API баз данных зачастую переводят языки программирования, такие как Python или JavaScript, в язык запросов базы данных, что напоминает более старые методы Object Relational Mapping (ORM). DataStax API данных выделяется своей уникальной архитектурой Cassandra, что позволяет устанавливать более глубокие связи внутри базы данных и улучшать производительность запросов.
«API данных предоставляет разработчикам простой формат данных на основе JSON. Всё, что можно выразить в JSON, можно отправить и получить из базы данных», — объяснил Анафф. «Мы эффективно храним это в Cassandra, поддерживая оптимальную производительность».
Улучшение Векторного Поиска с JVector
Ключевым компонентом усовершенствований DataStax в области векторных баз данных является поисковая система JVector, открытый инструмент, встроенный в AstraDB. Анафф подчеркнул, что JVector использует DiskANN, оптимизированную для дисков версию алгоритма поиска ближайших соседей (ANN). Эта стратегия значительно повышает производительность извлечения, особенно в большом масштабе.
DataStax утверждает, что движок JVector позволяет AstraDB обеспечивать большую релевантность и полноту по сравнению с другими векторными базами данных. Многое из текущих разработок DataStax в области векторов, включая JVector и новый API данных, становится открытым для сообщества Cassandra и клиентов AstraDB.
«Мы твердо намерены предоставлять ресурсы для открытых экосистем», — заявил Анафф. «Наша цель состоит в том, чтобы обеспечить разработчикам наиболее простой путь при выборе облачного сервиса».