Databricks收购Lilac，提升生成性AI应用的数据质量

Home AI News CN Databricks收购Lilac，提升生成性AI应用的数据质量

今天，Databricks宣布收购位于波士顿的应用研究初创公司Lilac，该公司专注于数据理解和处理。目前尚未披露收购的财务条款。

Databricks由Ali Ghodsi领导，计划将Lilac的团队和技术整合到其数据智能平台中，之前称为数据湖屋。这一整合将为各个领域的用户提供简化的数据集质量提升方法，以便开发高性能的大型语言模型（LLM）应用。

这一收购与Databricks成为综合数据和生成性AI解决方案平台的愿景相一致。近期，Databricks还向领先的生成性AI初创公司Mistral投资了一笔未披露的资金，该公司在欧洲取得了显著成功。

Lilac：简化数据探索

去年收购Mosaic AI标志着Databricks朝着AI驱动的未来战略转变，使用户能够安全地利用托管数据构建生成性AI应用。自那时以来，Databricks推出了多个开放模型，帮助客户开发、部署和维护满足各种业务需求的高质量LLM应用。

众所周知，高质量的数据是有效AI项目（包括LLM系统）的基础。为了确保模型训练的最佳效果和现实世界性能测试（解决偏差和幻觉等问题），团队需要可靠的数据。Lilac正是为Databricks解决这些关键的数据质量挑战而生。

传统上，团队使用劳动密集型的手动方法探索非结构化数据并纠正其缺陷。Lilac由前谷歌工程师Daniel Smilkov和Nikhil Thorat于2023年创立，提供可扩展的开源解决方案。其直观的用户界面和AI增强功能使用户能够高效地分析、理解和修改非结构化文本数据。

Lilac的特点

根据Lilac网站上的信息，数据科学家和AI研究人员可以利用其功能执行以下任务：

- 文档聚类和分类

- 进行语义和关键词搜索

- 检测个人信息或重复项，并通过对比视图进行必要的调整

- 根据特定需求定制数据集

“Lilac团队特别设计了他们的产品，以分析模型输出中的偏差或毒性，并为检索增强生成（RAG）和LLM的微调或预训练准备数据，”Databricks高管Matei Zaharia、Naveen Rao、Jonathan Frankle、Hanlin Tang和Akhil Gupta在一篇联合博客中表示。

他们进一步强调，Lilac的技术将整合到Databricks的Mosaic AI工具中，提高开发人员为定制生成性AI系统策划数据集的能力。尽管具体的整合细节尚未披露，但目标十分明确：简化数据定制，以便评估和监控LLM输出，并为RAG及模型微调等重要过程准备数据集。

扩展生成性AI能力

这一收购是Databricks向提供端到端工具、开发强大生成性AI应用的重要一步。Databricks平台的用户已可以访问开发LLM驱动系统所需的一切。这些包括来自Meta、Stability和Mistral等行业领导者的开放模型，以及用于实验和优化的专业Mosaic工具。

面对类似的市场需求，竞争对手如Snowflake也在这一领域积极发展，推出了Cortex，一项完全托管的服务，帮助客户构建由先进开放模型驱动的应用。

AWS、埃森哲与Anthropic携手推动企业人工智能的应用

微软创立新人工智能部门，由DeepMind与Inflection联合创始人穆斯塔法·苏莱曼担任领导