Arize AI是一项可观测性服务,近期推出了一款新产品,旨在帮助企业准确识别提示数据何时会导致大型语言模型(LLM)的错误或幻觉。这款工具专为AI工程师设计,提供了调试复杂系统所需的重要洞察,往往能在仅有的几行代码中孤立问题。
Arize的联合创始人兼首席执行官Jason Lopatecki表示:“我们都是提示工程师——我们自己设计提示。许多应用使用模板提示,这些模板可在不同数据集上反复使用,从而更好地回答用户查询。然而,这些模板依赖于从系统中提取的提示变量,即使是微小的数据差异也可能导致LLM输出中的幻觉或错误。”
在AI驱动的客户服务和支持聊天机器人的背景下,监控提示变量尤为重要,因为不正确的信息可能损害品牌声誉。虽然管理单个LLM可能简化监控,但企业通常会使用来自OpenAI、Google、Meta、Anthropic和Mistral等多个供应商的模型,这使得对潜在问题的关注变得至关重要。
Lopatecki强调,误信息是幻觉的主要原因。识别这些错误的来源——无论是输入模型的数据、选择的提示模板还是其他因素——对于有效修复系统至关重要。
理解变异性同样重要。变异性指的是AI模型在轻微调整或错误数据输入的影响下可能产生的输出范围。Lopatecki进一步阐述道:“决策过程不仅仅是单个输入和输出的场景。AI输出往往会输入到后续的AI决策中,形成一个复杂的网络,其中的变异可能升级为重大问题。”
为了解决这些挑战,Arize正在为精通高级LLM并能够构建复杂AI系统的AI工程师开发专门工具。Lopatecki表示:“这些工程师需要强大的工具来增强应用的智能。未来几年,AI工程师的角色将变得无处不在。”
Lopatecki希望Arize成为“AI领域的Datadog”,与这一云监控巨头竞争,后者已开始进入AI监控领域,包括对OpenAI模型(如GPT-4)的支持。然而,他相信Arize拥有优势:“与Datadog不同,我们的根基在于AI领域。创新的速度非常快,而他们仍在开发自己的AI产品。”
他强调了提供有效AI解决方案的紧迫性:“随着企业急于部署,它们往往只测试有限的场景。这些系统在现实世界中运行后,变异性和潜在问题变得十分明显,导致无数意想不到的挑战。有效的调试工具需求达到临界点,企业开始意识到事情出错的可能性有多大。”