Arize AI,一家觀察性服務公司,推出了一款新產品,旨在幫助企業確定何時提示數據導致大型語言模型(LLMs)出現錯誤或幻覺。這款專為人工智慧工程師設計的工具,提供了調試複雜系統所需的關鍵見解,通常可以從僅幾行代碼中識別問題。
Arize 聯合創始人兼首席執行官 Jason Lopatecki 解釋道:「我們都是提示工程師——我們設計了自己的提示。許多應用程序使用模板提示,使其可以重複應用於各類數據集,從而更好地回答用戶查詢。然而,這些模板依賴於從系統提取的提示變量,即使是輕微的數據差異也可能導致 LLM 輸出中的幻覺或錯誤。」
監控提示變量至關重要,尤其是在人工智慧驅動的客戶服務和支持聊天機器人的背景下,錯誤的信息可能損害品牌聲譽。雖然管理單個 LLM 可能簡化監控,但企業往往使用來自 OpenAI、Google、Meta、Anthropic 和 Mistral 等多個供應商的模型,因此此類監控尤為重要。
Lopatecki 強調,錯誤信息是幻覺的主要原因。確定這些錯誤的來源——無論是餵入模型的數據、選擇的提示模板,還是其他因素——對於有效修復系統至關重要。
了解變異性也十分關鍵。變異性指的是人工智慧模型因輕微調整或錯誤數據輸入而產生的潛在輸出範圍。Lopatecki 詳細說明:「決策過程不僅僅是一個單一的輸入輸出情境。AI 輸出往往會影響後續的 AI 決策,形成一個復雜的網絡,變異可能上升為重大問題。」
為了解決這些挑戰,Arize 正在開發專門針對 AI 工程師的工具,這些工程師擅長利用先進的 LLM 設計複雜的 AI 系統。Lopatecki 表示:「這些工程師需要強大的工具來增強應用的智慧。AI 工程師的角色在未來幾年將變得無處不在。」
Lopatecki 希望 Arize 成為「AI 的 Datadog」,將其定位為雲監控巨頭的競爭者,而 Datadog 已進軍包括支持 OpenAI 模型 GPT-4 的 AI 監控。他認為 Arize 具有優勢:「與 Datadog 不同,我們誕生於 AI 倫域。創新速度非常快,而他們仍在開發自己的 AI 產品。」
他強調了提供有效 AI 解決方案的緊迫性:「隨著企業急於部署,它們通常只測試有限的場景。一旦這些系統在真實世界中運行,變異性和潛在問題變得尤為突出,導致無數未預見的挑戰。對於有效調試工具的需求已達到關鍵點,企業開始意識到可能出現的問題有多少。」