今天,Databricks宣布收购位于波士顿的应用研究初创公司Lilac,该公司专注于数据理解和处理。目前尚未披露收购的财务条款。
Databricks由Ali Ghodsi领导,计划将Lilac的团队和技术整合到其数据智能平台中,之前称为数据湖屋。这一整合将为各个领域的用户提供简化的数据集质量提升方法,以便开发高性能的大型语言模型(LLM)应用。
这一收购与Databricks成为综合数据和生成性AI解决方案平台的愿景相一致。近期,Databricks还向领先的生成性AI初创公司Mistral投资了一笔未披露的资金,该公司在欧洲取得了显著成功。
Lilac:简化数据探索
去年收购Mosaic AI标志着Databricks朝着AI驱动的未来战略转变,使用户能够安全地利用托管数据构建生成性AI应用。自那时以来,Databricks推出了多个开放模型,帮助客户开发、部署和维护满足各种业务需求的高质量LLM应用。
众所周知,高质量的数据是有效AI项目(包括LLM系统)的基础。为了确保模型训练的最佳效果和现实世界性能测试(解决偏差和幻觉等问题),团队需要可靠的数据。Lilac正是为Databricks解决这些关键的数据质量挑战而生。
传统上,团队使用劳动密集型的手动方法探索非结构化数据并纠正其缺陷。Lilac由前谷歌工程师Daniel Smilkov和Nikhil Thorat于2023年创立,提供可扩展的开源解决方案。其直观的用户界面和AI增强功能使用户能够高效地分析、理解和修改非结构化文本数据。
Lilac的特点
根据Lilac网站上的信息,数据科学家和AI研究人员可以利用其功能执行以下任务:
- 文档聚类和分类
- 进行语义和关键词搜索
- 检测个人信息或重复项,并通过对比视图进行必要的调整
- 根据特定需求定制数据集
“Lilac团队特别设计了他们的产品,以分析模型输出中的偏差或毒性,并为检索增强生成(RAG)和LLM的微调或预训练准备数据,”Databricks高管Matei Zaharia、Naveen Rao、Jonathan Frankle、Hanlin Tang和Akhil Gupta在一篇联合博客中表示。
他们进一步强调,Lilac的技术将整合到Databricks的Mosaic AI工具中,提高开发人员为定制生成性AI系统策划数据集的能力。尽管具体的整合细节尚未披露,但目标十分明确:简化数据定制,以便评估和监控LLM输出,并为RAG及模型微调等重要过程准备数据集。
扩展生成性AI能力
这一收购是Databricks向提供端到端工具、开发强大生成性AI应用的重要一步。Databricks平台的用户已可以访问开发LLM驱动系统所需的一切。这些包括来自Meta、Stability和Mistral等行业领导者的开放模型,以及用于实验和优化的专业Mosaic工具。
面对类似的市场需求,竞争对手如Snowflake也在这一领域积极发展,推出了Cortex,一项完全托管的服务,帮助客户构建由先进开放模型驱动的应用。