DataStax 透過創新的數據 API 簡化生成式 AI RAG 應用開發

DataStax 強化生成式人工智慧開發,推出全新數據 API

DataStax 推出了一個全新的數據 API,旨在簡化開發者創建生成式人工智慧檢索增強生成(RAG)應用程序的過程。作為開源 Apache Cassandra 數據庫的領先供應商,DataStax 利用此技術驅動其 AstraDB 雲端資料庫即服務。2023年,他們在平台上增加了向量資料庫功能,將自己定位於這一領域的主要競爭者之一。在最近的一個活動中,DataStax 首席執行官自信地稱 Cassandra 是「生成式人工智慧的最佳數據庫」。

釋放向量資料庫的潛力

向量資料庫的能力對於 RAG 應用至關重要,這些應用利用大型語言模型(LLM)和數據平台來生成準確且量身定制的輸出。自2023年7月以來,DataStax 在 AstraDB 中提供了向量功能,但用戶仍需使用 Cassandra 查詢語言(CQL)進行數據調用。全新的數據 API 改變了這一局面,讓開發者可以使用 Python 和 JavaScript 與數據庫進行交互。这使 DataStax 在競爭環境中更接近如 Pinecone 這類專為向量設計的資料庫,後者最近推出了無伺服器功能。

DataStax 產品首席官 Ed Anuff 表示:「原生向量資料庫與精通查詢建模的混合資料庫之間一直存在拉鋸戰。我們的目標是弥合這一差距,而這正是數據 API 所實現的。」

變革 RAG 應用程序開發

雖然新 API 沒有為 AstraDB 引入新的向量功能,但它簡化了開發過程。Anuff 指出,自從推出向量功能以來,約一半的新 AstraDB 用戶關注生成式人工智慧應用程序。挑戰在於這些開發者主要依賴 Python 和 JavaScript,而這兩者並不直接支持訪問 AstraDB 數據。在 API 發布之前,建立 AI 應用程序需要廣泛了解 CQL,這涉及到複雜的數據建模,不利於輕鬆的 RAG 應用開發。同時,查詢對於向量數據檢索的優化程度也較低。

新數據 API 通過自動管理向量化,提供了 Python 和 JavaScript 的用戶友好界面,並通過數據庫級別的高效存儲和索引提升性能,減少了學習曲線,並提高了性能,相較於利用現有的 Cassandra API 優化了開發效率。

現代化數據庫交互

傳統的數據庫 API 通常將 Python 或 JavaScript 這類程序語言轉換為數據庫的查詢語言,此做法類似於舊有的物件關聯映射(ORM)方法。DataStax 的數據 API 通過 Cassandra 的獨特架構脫穎而出,促進了數據庫內更深入的連接,從而改善查詢性能。

Anuff 解釋道:「數據 API 以簡單的 JSON 格式呈現給開發者。任何可用 JSON 表達的內容都可以發送到數據庫並檢索回來。我們在 Cassandra 中高效地存儲這些數據,保持最佳性能。」

提升向量搜索與 JVector

DataStax 在向量資料庫進展中的一個重要組件是 JVector 搜索引擎,這是一個嵌入在 AstraDB 中的開源工具。Anuff 強調,JVector 採用了 DiskANN,一種為近似最近鄰(ANN)搜索算法進行磁碟優化的版本。這一策略顯著提升了檢索性能,特別是在大規模應用中。

DataStax 積極聲稱,JVector 引擎使 AstraDB 相比其他向量資料庫,能提供更高的相關性和回溯率。DataStax 的許多持續向量發展,包括 JVector 和新數據 API,正在為 Cassandra 社區和 AstraDB 客戶進行開源。

Anuff 指出:「我們對開源生態系統的資源提供持續承諾。我們的目標是確保開發者在選擇雲服務時有最簡單的選擇路徑。」

Most people like

Find AI tools in YBX