自2022年底ChatGPT的出現以來,AI公司與科技巨頭之間展開了一場引人注目的競爭,目標是引領迅速擴張的大型語言模型(LLMs)市場。面對這一激烈競爭,許多企業選擇將其語言模型作為專有服務提供,提供API存取,同時隱藏基礎模型的權重及其訓練數據集和方法的詳細資訊。
與專有模型的趨勢相反,2023年開放源碼LLM生態系統實現了顯著增長,尤其是可以下載和定制以滿足特定應用需求的模型問世,此一發展使開放源碼在LLM領域中成為一個重要角色,並與專有解決方案相抗衡。
更大就一定更好嗎?
在2023年之前,普遍觀念認為,增大LLMs的尺寸對於提升性能至關重要。開放源碼模型如BLOOM和OPT便體現了這一思路,這些模型的參數數量與OpenAI的GPT-3(1750億參數)相當。然而,這些大型模型需要巨大的計算資源和專業知識才能有效運行。
2023年2月,Meta推出Llama系列模型,其參數數量從70億到650億不等,徹底改變了這一觀念。Llama證明了較小的模型也能媲美更大的模型性能,支持了模型尺寸並不是唯一影響效能的因素的論點。
Llama成功的關鍵在於其訓練了更大數據集。GPT-3使用約3000億個標記,而Llama的模型吸收了多達1.4萬億個標記,這顯示了將較小模型訓練於更廣泛的標記數據集上可成為一條有效途徑。
開放源碼模型的優勢
Llama的受歡迎程度來自於兩個主要優勢:可以在單個GPU上運行,以及其開放源碼的釋出。這種可及性使研究社群能迅速在其架構和研究成果上進行擴展,催生了數個突出的開放源碼LLM,包括Cerebras的Cerebras-GPT、EleutherAI的Pythia、MosaicML的MPT、Salesforce的X-GEN和TIIUAE的Falcon。
2023年7月,Meta推出Llama 2,迅速成為多個衍生模型的基礎。Mistral.AI也發布了其兩個模型——Mistral和Mixtral,因其優良的性能和成本效益而受到讚譽。
Hugging Face產品與增長負責人Jeff Boudier表示:“自原始Llama發布以來,開源LLM領域加速發展,Mixtral如今在人工評估中被認可為第三大最有用模型,僅次於GPT-4和Claude。”使用這些基礎模型開發的其他模型如Alpaca、Vicuna、Dolly和Koala,針對特定應用進行了定制。來自Hugging Face的數據顯示,開發者已創建了數千個分支和專用版本。其中,對“Llama”的搜尋結果超過14,500,對“Mistral”為3,500,對“Falcon”為2,400。儘管Mixtral於2023年12月發布,但已成為150個項目的基礎。
這些模型的開放源碼特性在促進創新方面發揮了重要作用,使開發者能夠創建新模型並以多種配置結合現有模型,提升了LLMs的實用性。
開放源碼模型的未來
隨著專有模型的持續演進,開源社群仍是一個強勁的競爭者。科技巨頭們日益將開源模型納入其產品,認識到其價值。OpenAI的主要支持者Microsoft已發布了兩個開放源碼模型——Orca和Phi-2,並改善了其Azure AI Studio平台內部開源模型的整合。同樣,Amazon推出了Bedrock,這是一項旨在承載專有和開放源碼模型的雲服務。
Boudier指出:“在2023年,企業對LLMs的能力普遍感到驚訝,尤其是在ChatGPT成功之後。CEO們要求其團隊定義生成式AI的應用場景,迅速展開實驗和概念驗證,使用封閉模型API。”
然而,依賴外部API來處理關鍵技術存在風險,包括敏感源代碼和客戶數據的潛在泄露,這對於以數據隱私和安全為重心的企業來說並不是可持續的長期策略。
新興的開放源碼生態系統為希望實施生成式AI的企業提供了一條可行的路徑,同時滿足隱私和合規需求。
Boudier總結道:“隨著AI改變技術發展,正如以往創新一樣,組織需要內部創建和管理AI解決方案,以確保客戶信息的隱私、安全和法規遵從。根據歷史趨勢,這可能意味著需要擁抱開放源碼。”