Galileo 用 Luna 改變企業 AI 評估:企業的遊戲規則改變者
作為企業生成式 AI 的領導者,Galileo 推出了 Luna,這是一套革命性的評估基礎模型 (EFMs),旨在徹底改變企業評估生成式 AI 系統的方式。Luna 針對以往在生產環境中抑制生成式 AI 採用的關鍵挑戰—速度、成本和準確性,提供了解決方案。
“Galileo 創造 Luna 是為了克服現有生成式 AI 評估方法的缺陷,這些方法往往速度緩慢、成本高昂且不精確,”Galileo 的聯合創始人兼 CEO Vikram Chatterji 表示。“我們認識到,在生產環境中,迫切需要超低延遲、具成本效益且高準確性的評估。”
AI 評估的重要里程碑
Luna 的推出是 Galileo 自 2021 年初以來在企業生成式 AI 領域的重大步驟。該公司的 AI 評估進步的承諾,顯而易見地體現在近一年的嚴格研發上,最終促成了 Luna 的誕生。
在基準測試中,Luna 展現出卓越的表現,AUROC 得分達到 0.78,超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等領先競爭對手。
量身打造的模型重新定義評估標準
Luna 創新的核心在於其專為評估任務設計的小型語言模型,如幻覺檢測、上下文品質評估、數據洩漏防護和惡意提示識別。這一專業聚焦使 Luna 在速度、成本和準確性三個關鍵指標上表現出色。
“利用量身定制的小型語言模型,Luna 的評估成本比使用 GPT-3.5 的評估便宜 97%,且速度快 11 倍,”Chatterji 解釋道。此外,Luna 在檢測幻覺和個人識別資訊(PII)等問題上表現出色,比以往方法提高了 20%。
對每月評估 100 萬條查詢進行的成本分析顯示,Luna 僅需 175 美元,顯著低於 GPT-3.5($6,248)、RAGAS Faithfulness($7,994)和 Trulens Groundedness($16,641)。
無傳統數據集的創新
Luna 的一大亮點是能在沒有傳統真實數據集的情況下運行。通過使用在多樣化的特定領域數據集上進行了預訓練的評估模型,Luna 簡化了評估過程,省去了繁瑣的自定義測試集需求。
Luna 的潛在應用廣泛。Chatterji 指出,它在需要高可靠性的行業(如醫療、金融和電信)中表現出色。他補充道:“Luna 對於每月處理數百萬查詢的大型企業應用尤其強大。”
無與倫比的速度與持續改進
Galileo 的 Luna 提供卓越的速度,單次查詢僅需 0.232 秒,這大大優於 GPT-3.5(2.5 秒)和 RAGAS Faithfulness(5.4 秒)。
Luna 的應用場景涵蓋從即時 AI 輸出監控到確保聊天機器人互動安全。憑藉 Galileo 的 Fine Tune 產品,Luna 可根據客戶需求進行定制,在製藥和金融服務等關鍵領域實現 95% 以上的準確率。
隨著生成式 AI 環境的不斷演變,Galileo 對 Luna 的持續創新充滿承諾,著重於擴展任務支持、提升準確性及進一步降低成本和延遲。
“Galileo 致力於推進 AI 評估,幫助組織部署值得信賴的 AI 解決方案,”Chatterji 表示。“隨著生成式 AI 的持續演進,我們將為客戶提供最先進的能力,贏得使用者的信心。”
隨著 Luna 的推出,Galileo 鞏固了其作為企業生成式 AI 評估先行者的地位。在企業渴望挖掘生成式 AI 潛力的同時,Luna 提供的快速、具成本效益和準確的評估將對推動這一變革性技術的廣泛應用至關重要。