2023年现代数据架构中的大型语言模型整合：深度洞察与分析

Home AI News CN 2023年现代数据架构中的大型语言模型整合：深度洞察与分析

Updated on 十二月 22 2023

当ChatGPT在一年前推出时，它为互联网用户提供了一个随时可用的AI助手，可以执行各种任务，包括生成自然语言内容（如论文）和分析复杂信息。这一迅速崛起突显了其背后的强大技术：GPT系列的大型语言模型（LLMs）。

如今，LLMs不仅在改善个体任务方面发挥作用，还正在彻底改变整个业务运营。许多公司利用商业模型API和开源解决方案来自动化重复性任务，提高效率，简化关键功能。设想一下，AI可以帮助市场营销团队设计广告活动，或通过快速访问正确数据库来加速客户支持服务。

数据栈的变革

数据对大型语言模型的性能至关重要。当这些模型经过有效训练后，团队能够高效地处理和分析数据。随着ChatGPT及其竞争对手在过去一年中的受欢迎程度，许多企业开始将生成式AI融入数据工作流程，简化用户体验，从而节省时间和资源，专注于核心任务。

其中一项重大进展是引入对话查询功能。该功能允许用户以自然语言与结构化数据（行和列组织的数据）进行互动，消除了编写复杂SQL查询的需求。通过这种文本到SQL的功能，即使是非技术用户也能用简单的语言输入查询，并从数据中获取洞察。

一些领先供应商在这一领域开创了先河，包括Databricks、Snowflake、Dremio、Kinetica和ThoughtSpot。最初使用ChatGPT的Kinetica现在采用其专有的LLM。Snowflake提供两种主要工具：用于对话式数据查询和SQL查询生成的助手，以及从图像和PDF等非结构化数据集中提取信息的文档AI工具。Databricks也通过其“LakehouseIQ”解决方案提供类似服务。

新兴初创公司也在专注于基于AI的分析。例如，总部位于加利福尼亚的DataGPT提供专门的AI分析师，能够实时执行成千上万的查询，并以对话形式呈现结果。

支持数据管理和AI项目

除了生成洞察，LLMs还越来越多地支持那些对构建强大AI产品至关重要的数据管理任务。今年五月，Informatica推出了Claire GPT，一个多LLM对话AI工具，帮助用户通过自然语言输入发现、管理和互动他们的智能数据管理云（IDMC）的数据资产。Claire GPT可以执行多种功能，包括数据发现、管道创建、元数据探索和质量控制。

为进一步帮助团队开发AI产品，Refuel AI推出了专为数据标注和丰富任务量身定制的LLM。2023年10月的研究表明，LLMs还可以有效减少数据集中的噪音，这对确保AI质量至关重要。

LLMs同样适用于数据工程，尤其是在数据集成和编排方面。它们可以生成必要的代码来转换不同类型的数据、连接不同的数据源，或者创建构建Airflow DAG所需的YAML和Python模板。

展望未来

在短短一年的时间里，LLMs已经对企业环境产生了显著影响。随着这些模型在2024年的不断进步，我们可以期待更多在数据栈中的应用，尤其是在数据可观察性这一新兴领域。Monte Carlo推出了Fix with AI工具，能够识别数据管道中的问题并建议修正代码。类似地，Acceldata收购了Bewgle，以增强LLM在数据可观察性方面的集成。

随着新应用的不断涌现，各团队必须确保他们的语言模型，无论是内部开发还是微调，都能保持高性能。即使是微小的错误也可能导致显著的后果，进而影响客户体验。

苹果发布开源多模态大语言模型：十月发布亮点解析

金融机构如何利用人工智能优化客户身份认证流程，提高合规性与客户满意度