Databricks 年度峰会依然是数据生态系统各方利益相关者的盛会。每年,公司都会推出创新技术、合作伙伴关系和进步,旨在简化对结构化和非结构化数据的管理。今年的峰会延续了这一传统,特别强调了人工智能(AI)。
在主旨演讲中,首席执行官阿里·戈希(Ali Ghodsi)介绍了一系列数据与 AI 交汇的创新,重申了公司致力于优化 Databricks 数据智能平台上的受管数据集。主要亮点包括 Mosaic AI 的升级,这是一种图像生成模型,以及旨在提高数据分析效率的生成式 AI 解决方案。
以下是今年峰会的主要公告:
1. Unity Catalog 开源
为了与 Snowflake 的 Polaris Catalog 进行竞争,Databricks 将其 Unity Catalog 在 Apache 2.0 许可下开源,并提供 OpenAPI 规格。这使其他公司能够使用此架构和代码来创建支持多种数据格式(包括 Iceberg 和 Delta/Hudi)的目录。在主旨演讲中,演示了该代码,预计 Snowflake 将在接下来的 90 天内采取类似措施。
2. Mosaic AI 升级,适用于生产级系统
Mosaic AI,作为 AI 应用程序开发工具包,获得了显著增强,旨在帮助团队创建可信赖、可生产的复合 AI 系统。新功能包括 Mosaic AI 模型训练产品、AI 代理框架、评估框架以及用于治理的 AI 工具目录和 AI 网关。除 AI 工具外,所有产品现已进入公众预览阶段。
3. 企业级新文本到图像模型
Databricks 发布了 Shutterstock ImageAI 的私人预览,这是一个生成式 AI 模型,允许企业创建适用于多种业务应用的高保真图像。此模型与 Mosaic AI 和 Shutterstock 的可信图像集合进行预训练,用户可以通过 Shutterstock 的图像生成器访问,并可以通过 Mosaic AI 进行微调或通过 API 集成。
4. Databricks AI/BI 促进智能分析
为了帮助企业实现分析见解的民主化,Databricks 推出了 Databricks AI/BI,这是一个与数据智能平台集成的复合 AI 系统。该系统利用 AI 代理(仪表板和 Genie)解释业务查询,以生成自然语言答案和可视化。每个代理针对特定功能,如规划、SQL 生成和可视化,辅以响应排名和向量索引等组件。此产品现已面向所有 Databricks SQL Pro 和 Serverless 用户,仪表板已全面发布,Genie 则处于公众预览阶段。
5. Databricks LakeFlow 简化数据工程
Databricks 还推出了 LakeFlow,这是一个统一体验,旨在简化从数据摄取到转换再到编排的所有数据工程环节。LakeFlow 通过自动化数据管道的部署、操作和监控,简化了传统上复杂的数据管道构建和维护过程,同时提供强大的 CI/CD 和质量检查支持。目前尚未进入预览阶段,但 Databricks 已开放了早期访问候补名单。
6. 与 Nvidia 和 Gretel 的合作伙伴关系
最后,Databricks 宣布与 Nvidia 和 Gretel 建立重要合作伙伴关系。与 Nvidia 的合作旨在将对 CUDA 加速计算的本地支持集成到 Databricks 的下一代矢量化查询引擎 Photon 中,提高数据仓储和分析工作负载的性能。与 Gretel 的合作将其指定为 ISV 技术合作伙伴,提供高质量的合成数据集,以开发和定制基于 Databricks 平台的机器学习模型。