企業對於生成性人工智慧持樂觀態度,投入數十億美元開發各種應用程序,從聊天機器人到搜尋工具,涉及多個使用案例。儘管幾乎每一家大型企業都在進行生成性人工智慧的計畫,但在承諾人工智慧和成功部署的過程中,存在著重要的區別。
今天,由前谷歌和 Postman 高管 Vaibhavi Gangwar 和 Akshay Deo 創立的加州新創公司 Maxim,推出了一個端到端的評估與觀察平台,旨在填補這一空白。該公司同時宣布獲得來自 Elevation Capital 及其他天使投資者的 300 萬美元資金。
Maxim 解決了開發人員在構建大型語言模型 (LLM) 驅動的人工智慧應用程序時面臨的一個重大挑戰:在開發生命週期中監控各個組件。即使是微小的錯誤也可能損害項目的可靠性和信任度,進而導致交付延遲。Maxim 的平台專注於在釋出前和生產後測試與提升人工智慧的質量與安全,建立一個標準,幫助組織簡化其人工智慧應用程序的生命週期,快速交付高質量產品。
開發生成性人工智慧應用的挑戰
歷史上,軟體開發遵循確定性的方式,有標準化的測試與迭代實踐,使團隊能清晰地提升質量和安全。然而,生成性人工智慧的引入帶來了許多變數,形成了非確定性範式。開發人員需管理多個要素,從所使用的模型到數據及使用者的問題框架,同時保證質量、安全與性能。
組織一般透過兩種主要方式應對這些評估挑戰:聘請人才監控每一變數或開發內部工具,這兩者都可能導致成本增加並使注意力分散於核心業務功能。
意識到這一需求,Gangwar 和 Deo 創立了 Maxim,以協調生成性人工智慧堆疊中的模型和應用層之間的差距。該平台提供涵蓋人工智慧開發生命週期的全面評估,從提示工程和釋出前測試到釋出後監控與優化。
Gangwar 描述 Maxim 的平台由四個核心組件組成:實驗套件、評估工具包、可觀察性和數據引擎。
實驗套件包括提示內容管理系統(CMS)、集成開發環境(IDE)、可視化工作流構建器和與外部數據源的連接器,使團隊能有效地在提示、模型和參數上進行迭代。例如,團隊可以在多個模型上實驗不同的提示,以用於客服聊天機器人。
評估工具包提供了一個統一框架,適用於人工智慧驅動和人工評估,使團隊能透過全面測試更量化地評估改進或退步。結果在儀表板上可視化,涵蓋音調、準確性、毒性和相關性等指標。
可觀察性在釋出後階段至關重要,能夠實時監控生產日誌和自動評估,以識別並解決實時問題,保證質量標準得以實現。
根據 Gangwar 的說法:“用戶可以為生產日誌中的各種質量、安全和安全信號建立自動控制。他們還可以設置與性能、成本和質量等最重要指標相關的實時警報。”
利用可觀察性套件中的見解,用戶能迅速解決問題。如果數據質量成為關注焦點,數據引擎允許無縫策劃和豐富數據集以進行微調。
加速應用部屬
儘管仍在早期階段,Maxim 宣稱已協助“幾十家”早期合作夥伴以比以往快五倍的速度測試、迭代和部署他們的人工智慧產品,目標涵蓋 B2B 技術、生成性人工智慧服務、銀行金融和教育科技等行業,這些行業在評估挑戰上特別突出。隨著公司的擴展,將致力於提升平台能力,聚焦中型市場和企業客戶。
Maxim 的平台還包括企業導向的功能,例如基於角色的存取控制、合規性、團隊協作和虛擬私有雲的部署選項。
雖然 Maxim 的標準化測試與評估方法值得注意,但它面臨著來自像 Dynatrace 和 Datadog 等資金雄厚競爭對手的挑戰,這些對手持續不斷地擴展其產品。
Gangwar 指出,許多競爭者要麼專注於性能監控、質量或可觀察性,而 Maxim 的目標是將所有評估需求整合在一個單一的綜合平台中。
“開發生命週期需要全面管理與測試相關的需求,我們相信這會促進可持續應用的生產力和質量提升,”她強調。
展望未來,Maxim 計劃擴大其團隊和運營能力,同時與專注於人工智慧產品開發的企業建立更多合作夥伴關係。未來的增強功能可能包括專有的領域特定質量與安全評估,以及開發多模態數據引擎。