總部位於舊金山的Datasaur是一家專注於AI項目文本和音頻標註的人工智慧初創公司,近日推出了LLM Lab——這是一個全面的平台,旨在協助團隊創建和訓練定制的大型語言模型應用,類似於ChatGPT。
LLM Lab提供雲端及內部部署選項,使企業能夠建立內部生成型AI應用,減少與第三方服務相關的商業和數據隱私風險,從而讓團隊對專案擁有更大的控制權。Datasaur的首席執行官兼創始人Ivan Lee表示:「我們創造了一款工具,旨在解決常見痛點,支持不斷發展的最佳實踐,並體現我們簡化流程的設計理念。我們利用在內部使用和服務客戶的經驗,開發了一款可擴展且易於使用的LLM產品。」
Datasaur LLM Lab的關鍵特徵
自2019年成立以來,Datasaur不斷推進其穩健的數據標註平台,專注於AI和自然語言處理(NLP)。LLM Lab的推出標誌著這些產品的一次重大演變。「這個工具超越了我們傳統的NLP焦點,包括實體識別和文本分類等方法,」Lee解釋說。「大型語言模型(LLM)代表著語言技術的下一代,我們旨在成為文本、文檔和音頻AI應用的業界首選解決方案。」
目前,LLM Lab提供一個統一的界面,用於LLM應用開發的各個組件,包括內部數據導入、數據準備、檢索增強生成(RAG)、嵌入模型選擇以及優化LLM響應。該產品的設計原則包括模塊化、組合性、簡單性和可維護性。
Lee補充道:「這種方法能有效管理不同的文本嵌入、向量數據庫和基礎模型。LLM領域的動態特性需要一個技術無關的平台,讓用戶能夠為優化解決方案互換技術。」
使用LLM Lab時,用戶首先選擇基礎模型並調整相關設置,如溫度和最大響應長度。支援的模型包括Meta的Llama 2、阿布達比科技創新研究所的Falcon以及Anthropic的Claude,並與Pinecone集成用於向量數據庫。
接下來,用戶可以選擇提示模板以測試其有效性,並上傳文檔進行RAG。完成這些配置後,用戶可最終確定設置以保證質量表現並部署應用。用戶還可以為提示/完成對進行評分,並通過強化學習及人類反饋(RLHF)進行模型微調。
克服技術挑戰
儘管Lee未透露目前有多少公司在測試LLM Lab,但他表示早期用戶反饋良好。使用該平台的GLAIR.ai創始人兼首席執行官Michell Handaka強調,該實驗室促進了工程團隊與非工程團隊之間更好的交流,有效打破了LLM應用開發中的障礙。
Datasaur已經在金融、法律和醫療等關鍵行業支持將非結構化數據轉化為有價值的機器學習數據集。其顯著合作夥伴包括Qualtrics、Ontra、Consensus、LegalTech和Von Wobeser y Sierra。「我們支持前瞻性的行業領袖,並預計2024年實現五倍收入增長,」Lee指出。
Datasaur和LLM Lab的未來發展
在接下來的一年中,Datasaur計劃進一步提升LLM Lab,並加大在企業級LLM開發的投入。用戶將能夠保存成功檢配置並與同事分享見解。該實驗室還將納入新的基礎模型。
考慮到對定制及以隱私為中心的LLM應用需求的上升,LLM Lab有望帶來顯著影響。根據2023年LLM調查報告,近62%的受訪者正在利用LLM應用,如ChatGPT和GitHub Copilot,進行聊天機器人、客戶支持和編程等功能。
隨著隱私問題的日益關注,越來越多的公司從通用模型轉向符合安全、隱私和法規標準的內部定制解決方案。