为了最大化大型语言模型(LLMs)的优势,企业必须使用特定领域的数据对其进行微调。这一过程能够增强模型生成相关输出的能力。然而,微调预训练模型带来了一个关键挑战:不同数据分布的权重调整可能导致“灾难性遗忘”,使模型失去以往获得的知识,从而影响LLM的性能和推理能力。
语音人工智能公司Tenyx已推出了一项针对这一问题的微调解决方案。他们的平台使企业能够根据具体需求定制LLM,而不会牺牲基础知识或安全措施。Tenyx的首席执行官兼创始人Itamar Arel表示:“灾难性遗忘是机器学习界长期以来面临的挑战。传统上,人们认为模型可以在新数据上持续训练的同时保留旧信息。”
微调的风险
Arel强调,微调对于企业应用LLMs变得愈加重要。然而,数据科学家往往无法完全访问原始训练数据集,传统的微调方法未能有效减轻遗忘效应。这可能导致失去关键能力,并使组织面临有害或偏见的内容风险。
例如,使用LLaMA 7B作为客户服务聊天机器人这一常见应用,需要通过典型的客户交互数据对其进行微调。像低秩适应(LoRA)这样的标准技术,可能在无意中造成珍贵知识的损失,比如准确回答“从酒店到机场的距离是多少?”或从“我将在12月7日到达,住四晚”中推断上下文。
Arel指出:“微调后的模型可能在特定任务上表现出色,但在更广泛的知识和推理方面可能生成错误或偏见的响应。”
低秩适应的局限性
尽管LoRA因其计算效率受欢迎,Arel解释称其并非为解决灾难性遗忘而设计。当微调时数据分布偏离原始数据,可能会引发不可预测的失真。
Arel表示:“我们的研究发现,尽管LoRA有其优势,但也存在知识和推理损失的风险。”模型的复杂性使得识别和纠正这些失真变得更加困难。此外,传统微调方法可能削弱通过人类反馈强化学习(RLHF)建立的安全协议,而这些协议对于防止偏见输出至关重要。“RLHF也是一种训练过程,因此在微调时也受到影响。”Arel强调。
当前缓解策略的低效性
目前,企业试图通过依靠大量机器学习工程师来限制微调,并利用提示工程以实现最佳结果。然而,这种方法不一致、成本高昂,且对何时、为何有效缺乏明确理解。此外,在微调过程中常常需要手动干预来评估知识和推理,使得缺乏自动化的情况下,流程更加复杂。
Tenyx的微调方法
Tenyx创新的微调方法能够识别哪些模型参数可以更新,以从新数据中学习,同时保留大部分先前的输入输出映射。他们的平台确保微调期间的更新不会干扰模型对原始数据的处理能力。Arel解释道:“通过分析训练好的LLM,我们的方法确定最佳更新权重,使得学习新数据的同时尽量减少灾难性遗忘。”Tenyx的方法采用了一种新的数学解释,利用在LLM初始训练期间形成的几何表示,有效保留以前学习的信息,并适应变化。
Tenyx的方法还保护了RLHF的安全性,并符合包括白宫关于安全、可靠和可信人工智能的行政命令在内的监管指引。
Tenyx微调方法的成果
在一项评估流行企业和开源微调算法的试点研究中,Tenyx展示了在安全性、能力和知识保留方面明显的优势:
- 安全性:Tenyx在风险管理中减少了11%的风险,优于OpenAI的-66%、Together AI的-94%和LoRA的-91%。
- 能力:虽然OpenAI的GPT 3.5 Turbo因其参数而表现优异,Tenyx的Llama-2 7B在微调后表现出色。
- 知识:Tenyx在灾难性遗忘方面仅损失了3%,OpenAI为10%,Together AI为40%,而LoRA为43%。
斯坦福大学副教授Noah Goodman指出:“灾难性遗忘仍然是深度学习中一个公认的难题,影响着即使是最先进的模型。随着模型在新特定领域数据上的微调,虽然通常会提升该领域的性能,但也面临改变既有能力的风险。”Goodman补充道:“Tenyx拥有强大的研究团队,探索应对这一复杂挑战的创新解决方案。”