DataStax通过创新数据API简化生成式AI RAG应用开发

DataStax通过新数据API提升生成性人工智能开发

DataStax推出了一款新数据API,旨在简化开发者创建生成性人工智能提升的检索生成(RAG)应用程序的过程。作为开源Apache Cassandra数据库的领先供应商,DataStax利用这一技术支持其AstraDB云数据库服务。自2023年起,他们为平台添加了向量数据库功能,跻身于该领域的主要玩家之列。在最近的一次活动中,DataStax首席执行官自信地称Cassandra为“生成性人工智能的最佳数据库”。

释放向量数据库的力量

向量数据库功能对于RAG应用至关重要,这些应用利用大型语言模型(LLMs)和数据平台生成精准、定制化的输出。自2023年7月以来,DataStax就在AstraDB中提供了向量功能,但用户仍需使用Cassandra查询语言(CQL)进行数据调用。新推出的数据API改变了这一格局,使开发者能够通过Python和JavaScript与数据库进行交互。这一更新使DataStax在竞争中更接近于专门的向量数据库,如最近引入无服务器功能的Pinecone。

DataStax首席产品官Ed Anuff表示:“原生向量数据库仅支持向量查询,而混合数据库在查询建模方面表现优异,二者之间一直存在拉锯。我们的目标是弥合这一差距,而数据API正是实现这一目标的关键。”

简化RAG应用开发

尽管新API并未为AstraDB引入新的向量功能,但它优化了开发流程。Anuff指出,自从引入向量功能以来,大约一半的新AstraDB用户专注于生成性AI应用。然而,这些开发者主要使用Python和JavaScript,而这些语言此前并未直接支持访问AstraDB数据。

在API发布之前,构建人工智能应用需要深入了解CQL,这涉及复杂的数据建模,不利于简化RAG应用开发。此外,查询在向量数据检索方面的效率也较低。

新数据API解决了这些问题,通过自动管理向量化,为Python和JavaScript提供用户友好的接口,并通过高效的存储和索引提升向量数据的性能。这降低了学习曲线,相较于使用现有的Cassandra API,大幅提升了性能。

现代化数据库交互

传统数据库API往往将Python或JavaScript等编程语言转换为数据库的查询语言,这类似于旧的对象关系映射(ORM)方法。DataStax数据API凭借Cassandra独特的架构脱颖而出,促进了数据库内部的深度连接,显著改善了查询性能。

Anuff解释道:“数据API为开发者提供了简单的JSON数据格式。任何可以用JSON表示的数据都可以发送到数据库并从中检索。我们在Cassandra中高效存储这些数据,确保最佳性能。”

利用JVector提升向量搜索

DataStax在向量数据库方面的一项重要进展是JVector搜索引擎,这是嵌入在AstraDB中的一个开源工具。Anuff强调,JVector采用DiskANN,一种针对磁盘优化的近似最近邻(ANN)搜索算法。这种策略在大规模数据检索时显著增强了性能。

DataStax表示,JVector引擎使AstraDB在相关性和检索率方面优于其他向量数据库。DataStax最新的向量开发工作,包括JVector和新数据API,正在为Cassandra社区和AstraDB客户开源。

Anuff表示:“我们坚决致力于为开源生态系统提供资源。我们的目标是确保开发者在选择云服务时能有最简单的路径。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles