隨著企業加速採用生成式人工智慧,對大型語言模型(LLMs)準確性和安全性的擔憂可能會阻礙其在商業中的廣泛整合。針對這些挑戰,San Francisco的初創公司Patronus AI最近籌集了1700萬美元的A輪融資,旨在自動識別大型語言模型中高成本及潛在危險的錯誤。
此次融資使Patronus AI的總投資達到2000萬美元,由Notable Capital的Glenn Solomon主導,並獲得Lightspeed Venture Partners、前DoorDash高管Gokul Rajaram、Factorial Capital、Datadog以及若干未公開技術領導者的支持。
Patronus AI由前Meta的機器學習專家Anand Kannappan和Rebecca Qian創立,開發了一個創新的自動評估平台,專門用於檢測LLM產出中的問題,如幻覺、侵權及安全風險。該平台採用專有人工智慧技術,無需繁瑣的手動過程,便可評估模型性能、進行對抗性測試及詳細基準測試。
Patronus AI的CEO Kannappan表示:「我們的產品擅長捕捉各種錯誤,這包括幻覺、版權問題、安全相關的風險,以及維持品牌風格和語調的特定能力。」
隨著OpenAI的GPT-4及Meta的Llama 3等強大大型語言模型的問世,矽谷掀起了一場競爭熱潮,希望利用這項技術的生成能力。然而,隨著興奮的來臨,模型的失敗案例屢見不鮮,從CNET的錯誤報導到一些藥物發現公司撤回受LLM不準確影響的研究論文。
這些失敗凸顯了當前LLM系統性的深層問題,而Patronus AI正致力於解決這些問題。他們的研究,包括最近推出的「CopyrightCatcher」API和「FinanceBench」基準,顯示出領先模型在提供準確、基於事實的答案方面的驚人不足。
在「FinanceBench」基準測試中,Patronus評估了包括GPT-4在內的模型,針對公共SEC檔案的金融問題進行測試。結果令人震驚:即使回顧了整份年報,表現最佳的模型也僅正確回答了19%的問題。使用「CopyrightCatcher」API進行的單獨評估發現,開源LLMs在44%的情況下逐字複製了受版權保護的文本。
Patronus的CTO Qian指出:「即使是最先進的模型在準確性方面也面臨挑戰,在金融環境中表現僅為90%。」她補充道:「我們的研究顯示,開源模型在高風險領域的安全回應率超過20%。版權侵權是一個重大問題;大型出版商和媒體公司必須保持警惕。」
雖然其他初創公司如Credo AI和Weights & Biases也在開發LLM評估工具,但Patronus以研究為先的方式脫穎而出。他們的核心技術是訓練專用的評估模型,以識別LLM可能失敗的特定情境。
Kannappan強調:「沒有其他公司能與我們的研究和技術深度相匹敵。我們的策略獨特——根植於訓練評估模型、開創對齊技術並發表研究。」
Patronus AI在汽車、教育、金融和軟體等多個行業贏得了一些《財富》500強公司的青睞,幫助他們安全地實施LLM。隨著新資金的注入,Patronus計劃擴展其研究、工程和銷售團隊,同時開發更多基準測試。
如果Patronus實現其願景,自動化的LLM評估將成為企業的必需,類似於安全審計在加速雲採用中的角色。Qian想像未來,在對模型進行測試時使用Patronus將成為常態,猶如代碼的單元測試。
她解釋道:「我們的平台功能多樣,適用於法律、醫療等各個領域。我們的目標是幫助各行各業的企業充分利用LLM,同時確保遵守特定要求。」
儘管由於LLM的黑箱特性和廣泛的輸出可能性,驗證其性能極具複雜性,但Patronus堅持推進人工智慧評估。他們旨在通過推進自動測試的邊界,促進LLM在現實應用中的負責任部署。
Kannappan承認:「自動化LLM性能測量面臨挑戰,因為這些生成模型可以表現出不同範疇的行為。然而,我們以研究為導向的方法使我們能夠可靠且可擴展地識別手動測試無法發現的錯誤。」