Databricks 发布新工具，助力开发高质量 RAG 应用程序

Home AI News CN Databricks 发布新工具，助力开发高质量 RAG 应用程序

Updated on 十二月 6 2023

今天，Databricks宣布在其数据智能平台上推出新的检索增强生成（RAG）工具。这些工具旨在帮助企业构建、部署和维护高质量的大语言模型（LLM）应用，以满足多种应用场景的需求。

现已进入公开预览阶段，这些工具解决了开发生产就绪的RAG应用过程中面临的重大挑战。它们简化了从多种数据源实时集成相关商业数据与合适模型的流程，同时能够有效监控应用程序，识别诸如毒性等常影响LLM的问题。

Databricks人工智能/机器学习产品高级总监Craig Wiley强调了开发RAG应用的紧迫性：“组织在提供能够一致产生准确、高质量响应的解决方案时，面临着实施保护措施以防止不良输出的挑战。”

理解RAG及其挑战

尽管大语言模型越来越受欢迎，但许多现有模型依赖于固定的参数知识，限制了它们提供最新、上下文特定响应的能力，尤其是在内部商业需求方面。检索增强生成（RAG）通过利用特定数据源，提升模型响应的准确性和可靠性。例如，基于人力资源数据训练的模型可以帮助员工解决各类问题。

RAG涉及多个复杂任务，包括从多个来源收集和准备结构化与非结构化数据、模型选择、提示工程和持续监测。这种分散的方式常导致RAG应用性能不足。

Databricks引领新潮流

Databricks的新RAG工具整合了各种流程，使团队能够快速原型制作和部署高质量RAG应用。向量搜索和特征服务等功能消除了构建繁琐数据管道的需要，因为来自Delta表的结构化和非结构化数据能够与LLM应用无缝同步。这确保了访问最新和最相关的商业信息，从而产生精准且具有上下文意识的响应。

“Unity Catalog自动跟踪离线和在线数据集之间的血缘关系，简化了数据质量问题的调试，并强化了访问控制设置，以实现更好的数据治理，”Databricks联合创始人兼工程副总裁Patrick Wendell与神经网络首席技术官Hanlin Tang表示。

此外，开发者可以利用统一的AI系统和MLFlow评估，评估来自多个供应商的模型，包括Azure OpenAI服务、AWS Bedrock以及开源选项如Llama 2和MPT。这种灵活性使团队能够使用性能最佳、成本效益最高的模型进行项目部署，并在新方案可用时，迅速转向更优选项。

高级监控能力

在部署RAG应用后，监控其大规模性能至关重要。Databricks提供的全面管理Lakehouse监控功能能自动扫描应用程序响应中的毒性、幻觉或任何不安全内容。这种主动检测结果会反馈到仪表板、警报系统和数据管道，让团队能够迅速采取纠正措施。该功能与模型和数据集血缘集成，便于快速识别错误及其原因。

早期用户成功

尽管新工具刚刚推出，但如RV供应商Lippert和EQT Corporation等企业已在Databricks数据智能平台上测试其功能。负责Lippert数据和AI工作的Chris Nishnick表示：“Databricks通过将各类内容源整合到我们的向量搜索中，提高了呼叫中心的运作效率，保证代理人员随时能获取所需知识。这种创新方法显著提升了效率和客户支持。”

在内部，Databricks也在部署RAG应用。据Wiley介绍，该公司的IT团队正在为客户经理试点一款RAG Slackbot，并为销售开发代表提供一个浏览器插件。

认识到对专业LLM应用需求的不断增长，Databricks计划在其RAG工具套件中进行重大投资。其目标是使客户能够大规模部署高质量的LLM应用，并持续致力于这一领域的研究和未来创新。

自动化提案写作初创公司AutogenAI获得Salesforce Ventures及其他投资者3950万美元融资

Civitai创始人提倡开源解决方案，淡化AI深度伪造色情内容的担忧