随着向量数据库在企业人工智能(AI)部署和信息检索增强生成(RAG)中的重要性日益突出,管理非结构化数据的挑战愈加显著。
Vectorize的联合创始人兼首席执行官Chris Latimer曾在DataStax领导云技术项目。他发现,企业在实施RAG时,向量数据库本身并不是主要障碍,真正的困难在于如何将非结构化数据有效地导入向量数据库,以促进生成性AI的应用。
为了解决这一问题,Latimer在十个月前创办了Vectorize。现在,该公司宣布完成360万美元的种子融资,由True Ventures主导,并正式推出其企业RAG平台。该平台实现了自主RAG方法,支持近乎实时的数据处理。Vectorize专注于数据工程,帮助组织为向量数据库和大型语言模型(LLM)准备和管理数据。此外,该平台通过直观的界面,使企业能够快速构建RAG数据管道,并提供RAG评估工具,以测试不同的策略。
Latimer在接受独家采访时指出:“我们发现,在生成AI项目的最后阶段,结果往往达不到预期。提供给向量数据库的上下文对大型语言模型并无帮助,从而导致幻觉和数据误解。”
Vectorize如何融入企业RAG生态系统
Vectorize并不是一个向量数据库,而是一个将非结构化数据源与现有的向量数据库(如Pinecone、DataStax、Couchbase和Elastic)连接的平台。它从不同来源获取和优化数据,确保一个生产级的数据管道,涵盖数据获取、同步、错误处理以及数据工程的最佳实践。
此外,Vectorize也并非向量嵌入技术。相反,它支持用户评估不同的嵌入模型和数据分块方法,以找到最适合其特定应用场景的配置。Latimer强调,该平台的灵活性,让用户可以选择多种嵌入模型,包括OpenAI的Ada和Snowflake使用的Voyage AI嵌入。
“我们专注于创新的数据向量化策略,以实现最佳结果,”Latimer表示,并强调该平台提供的生产就绪解决方案,减轻了数据工程的顾虑。
利用自主AI推动企业RAG
Vectorize的一大亮点是其“自主RAG”方法,结合了传统RAG技术与AI代理的能力,促进自主问题解决。Groq,作为早期用户和AI推理硅芯片初创公司,最近获得了6.4亿美元资金,利用Vectorize的自主RAG能力来增强AI支持代理,使其能够根据Vectorize的数据和上下文,独立解决客户问题。
Latimer解释道:“如果客户提出重复性问题,代理应该能高效地解决,而不需要人工干预。但如果遇到更复杂的问题,则应及时升级给人类,以体现AI代理架构的本质。”
实时数据管道在企业RAG中的重要性
对企业而言,利用RAG的一大优势是能够访问实时数据。Latimer警告道:“过时的数据会导致决策失误。”Vectorize提供实时及近实时的数据更新功能,允许客户根据需求自定义数据的新鲜程度。
他表示:“我们使用户能够根据其可接受的数据时效性来配置平台。无论是每周数据刷新还是实时更新,我们的平台都能满足这些需求,及时提供最新数据。”