Kolena推出創新平台,用於測試AI模型及其定制版本

確保企業中 AI 模型的安全部署

對於希望在運營中實施 AI 模型的企業—無論是針對員工還是客戶—最迫切的問題不僅僅是選擇哪種模型或其預定用途,而是確定所選模型何時可以安全上線。

需要多少後端測試?應進行哪些類型的測試?企業自然希望避免出現如某些汽車經銷商使用 ChatGPT 進行客戶支持時,系統被用戶欺騙同意以 1 美元出售汽車的失誤。

徹底測試的重要性

正確測試 AI 模型,特別是精細調整的版本,可能是成功推出與危害公司聲譽及財務的關鍵所在。最近,加州舊金山的初創公司 Kolena 宣布推出其 AI 質量平台,這是一個旨在快速準確測試和驗證 AI 系統的網絡應用。

該平台涵蓋多項功能,包括數據質量監控、模型測試、A/B 測試,以及隨時間推移的數據漂移和模型退化監測。此外,平台還包括除錯功能。

“解決這一問題對於促進企業 AI 的採納至關重要,” Kolena 的聯合創始人兼首席執行官 Mohamed Elgendy 在一場獨家媒體訪談中表示。Elgendy 擁有來自 Rakuten 副總工程師及亞馬遜高級工程經理的豐富經驗,使他能洞察企業在 AI 部署中所面臨的挑戰。

Kolena AI 質量平台的運作方式

Kolena 的解決方案旨在協助軟件開發人員和 IT 專業人士創建安全、可靠且公平的 AI 系統,以應用於現實世界。平台能快速從數據集中生成詳細的測試案例,讓 AI/ML 模型在真實場景中進行嚴格檢驗,超越可能掩蓋關鍵性能洞察的廣泛統計指標。

每位 Kolena 客戶透過 API 連接所選模型,並提供自己的數據集及模型操作的功能需求—無論是文本、影像、代碼、音頻或其他內容。客戶還能評估偏見及年齡、種族和民族多樣性等屬性。Kolena 進行模擬數百或數千次互動的測試,以辨識任何不理想的結果,包括其出現頻率及情況。

此外,Kolena 會在提供者或客戶進行更新、重訓或調整後重新測試模型。

“我們將運行測試,精確找出您的模型退化的具體點。”Elgendy 解釋道,“Kolena 把測試轉化為一種精確的工程學科,類似於軟件開發。”

這一能力不僅對企業有價值,對 AI 模型供應商也同樣重要。例如,Elgendy 指出,因生成不準確圖像受到審查的 Google Gemini,在發布之前如果能使用 Kolena 的平台進行嚴格測試,可能會獲益良多。

推出前的廣泛測試

為了實現其宏願,Kolena 在更廣泛發布之前確保其 AI 質量平台進行廣泛測試。過去 24 個月,公司已與《財富》500 強企業及初創公司進行了封閉測試,並根據用戶反饋和需求不斷完善平台。

“我們與一組特定的客戶緊密合作,以界定已知和未知的挑戰,”Elgendy 解釋道。這組客戶共計在 Kolena 的平台上執行了“數萬次”的 AI 模型測試。

展望未來,Kolena 希望在三個關鍵領域與客戶建立合作:1. AI 基礎模型的建設者;2. 技術行業的買家;3. 非技術行業的買家。例如,一位合作夥伴正利用大型語言模型解決方案來改善快餐車道操作,而另一位則針對自動駕駛汽車開發者。

定價與可及性

Kolena 的 AI 質量平台採用軟件即服務(SaaS)模式運行,提供三個定價層,隨著企業 AI 成長而擴展,從最初的數據質量評估到模型訓練及最終部署。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles