微調對於提升大型語言模型(LLM)的輸出效果及使其符合特定企業需求至關重要。若執行妥當,此過程將產生更準確且具價值的模型回應,使得組織能充分利用其生成式人工智能應用。然而,微調可能成本高昂,對某些企業來說形成了障礙。
迅速達到 60 億美元估值的開源 AI 模型提供商 Mistral 正在進入微調領域。他們的新 AI 開發平台 La Plateforme 推出了增強的自訂工具,旨在簡化微調過程、降低培訓成本並減少進入障礙。Mistral 的名稱靈感來自法國南部的強風,該公司在 AI 生態系統中掀起了一陣波瀾,不斷創新並吸引大量資金。最近的部落格文章中,Mistral 強調,針對特定領域對較小模型進行微調可以提升性能,同時降低部署成本並加速應用速度。
為了提供更大的自訂靈活性,Mistral 讓用戶可以在 La Plateforme 上自訂其模型,利用 GitHub 上的開源代碼,或使用自訂訓練服務。對於想要獨立構建基礎設施的開發者,Mistral 推出了輕量級代碼庫 mistral-finetune,該工具使用 LoRA 類別減少可訓練參數的數量。Mistral 表示:“使用 mistral-finetune,您可以在自己的基礎設施上微調我們所有的開源模型,而不會影響性能或內存效率。”
對於有興趣進行無伺服器微調的人士,Mistral 提供了新服務,利用精煉的研究與開發技術。LoRA 轉接器有助於保留模型的基礎知識,並實現高效部署。Mistral 稱這是一項重大進展,使複雜的科學技術對 AI 應用開發者變得可及,並允許快速且具成本效益的模型自訂。
微調服務與 Mistral 的 73 億參數模型 Mistral 7B 及 Mistral Small 相容。目前的用戶可以立即利用 Mistral 的 API 進行自訂,未來幾週將推出更多可進行微調的模型。此外,Mistral 的自訂訓練服務使用專有數據來優化 AI 模型以適應特定應用,經常採用如持續再訓練等尖端技術來融入專業知識。這種方法促進了針對特定領域開發高度專業化和高效的模型。
為了慶祝這些新服務,Mistral 推出了 AI 微調黑客馬拉松,活動將持續至 6 月 30 日,鼓勵開發者測試該初創企業的創新微調 API。
自 2023 年 4 月由前 Google DeepMind 和 Meta 員工 Arthur Mensch、Guillaume Lample 和 Timothée Lacroix 創立以來,Mistral 迅速成長。該公司以創紀錄的 1.18 億美元種子輪融資迅速成為歐洲歷史上最大、並迅速與 IBM 等主要玩家建立夥伴關係。今年 2 月,Mistral Large 通過與 Microsoft 的合作在 Azure 雲端上推出。
最近,SAP 和 Cisco 宣布支持 Mistral,而上個月,該公司推出了其首個以代碼為中心的 LLM Codestral,宣稱超越所有競爭對手。Mistral 也快要完成一輪 6 億美元的重大融資,使其估值將提升至 60 億美元。
作為 OpenAI 和 Meta 的 Llama 3 的直接競爭對手,Mistral Large 被譽為全球第二強大的商業語言模型,僅次於 OpenAI 的 GPT-4。2023 年 9 月推出的 Mistral 7B 聲稱在多項基準測試中超越 Llama,在編碼任務中與 CodeLlama 7B 的表現相近。
Mistral 接下來會推出什麼創新?讓我們拭目以待。