為了最大化大型語言模型(LLMs)的效益,企業必須使用特定領域資料對其進行微調,這一過程能提升模型產生相關輸出的能力。然而,微調預訓練模型帶來了一個關鍵挑戰:調整不同資料分布的權重可能導致“災難性遺忘”,使模型喪失先前獲得的知識,這對LLM的性能和推理能力造成負面影響。
語音AI公司Tenyx已宣布一項針對此問題的微調解決方案。他們的平台讓企業能夠根據具體需求定制LLM,而不會犧牲基礎知識或安全措施。
Tenyx的首席執行官兼創始人Itamar Arel表示:“災難性遺忘在機器學習社群中是一個由來已久的問題。傳統上,認為模型可以在保留舊信息的同時不斷訓練新數據。”
微調的風險
Arel強調,微調對於LLMs在企業應用中的重要性與日俱增。然而,數據科學家通常無法完全獲取原始訓練數據集,而傳統微調方法無法有效減輕遺忘效應。這可能導致關鍵能力的喪失,並使組織面臨有害或偏見內容的風險。
例如,將LLaMA 7B用作客戶服務聊天機器人——這是一個常見的即用型應用,需要利用典型的客戶互動進行微調。標準技術,例如低秩適應(LoRA),可能會無意間使一些重要知識丟失,例如準確回答“從酒店到機場的距離是多少?”或理解“我將於12月7日來四晚”的背景。
Arel指出:“微調後的模型在特定任務中可能表現優異,但在更廣泛的知識和推理方面卻可能產生錯誤或偏見的回應。”
低秩適應的局限性
儘管LoRA因其計算效率而受到青睞,Arel解釋說,它並未專為解決災難性遺忘而設計。當微調使數據分布偏離原始分布時,會產生不可預測的扭曲。
他指出:“我們的研究結果表明,儘管LoRA具有優勢,但其仍承擔著知識和推理喪失的風險。”模型的複雜性也使識別和修正這些扭曲變得更為困難。此外,傳統的微調方法可能會削弱通過人類反饋增強學習(RLHF)建立的安全協議,而這些協議對於防止偏見輸出至關重要。
Arel強調:“RLHF本身也是一個訓練過程,因此在微調時也會受到影響。”
當前應對策略的低效率
目前,企業試圖通過依賴多位機器學習工程師來限制微調以及利用提示工程來獲得最佳結果,以管理災難性遺忘。然而,這種方法不一致、成本高昂,並缺乏對其運作時間和原因的明確理解。此外,在微調過程中評估知識和推理通常需手動介入,這使得無法自動化的過程變得複雜。
Tenyx的微調方法
Tenyx的創新微調方法識別出哪些模型參數可以更新,以便從新數據中學習,同時保留大部分先前的輸入輸出映射。他們的平台確保在微調過程中更新不會干擾模型處理原始數據的能力。
Arel解釋說:“通過分析訓練過的LLM,我們的方法可以確定最佳的更新權重,讓新數據學習的同時最小化災難性遺忘。”Tenyx的方法採用了初始LLM訓練期間形成的幾何表示的新數學詮釋,能有效保留先前學到的信息,同時適應變化。
重要的是,Tenyx的方法保護了RLHF的安全措施,並符合包括白宮《安全、保安和可信AI行政命令》在內的監管指導方針。
Tenyx微調方法的成果
在評估流行的企業和開源微調算法的試點研究中,Tenyx在安全性、精確性和知識保留方面展現了顯著優勢:
- 安全性:Tenyx實現了11%的風險減少,超過了OpenAI的-66%、Together AI的-94%和LoRA的-91%。
- 精確性:雖然OpenAI的GPT 3.5 Turbo在初始精確性上優於其參數,但Tenyx的Llama-2 7B在微調後表現卓越。
- 知識保留:Tenyx僅記錄了3%的災難性遺忘損失,而OpenAI為10%、Together AI為40%、LoRA為43%。
斯坦福大學副教授Noah Goodman指出:“災難性遺忘仍然是深度學習中的一個公認障礙,影響著即使是最先進的模型。當模型在新領域數據上進行微調時,通常在該領域的表現會有所提升,但風險在於改變既定能力。”
Goodman補充道:“Tenyx擁有一支強大的研究團隊,致力於探索創新解決方案來應對這一複雜挑戰。”