斯坦福大学的扩展智能实验室最近推出了一个新推理框架,名为Archon,旨在提高大型语言模型(LLMs)生成响应的效率。Archon采用推理时架构搜索(ITAS)算法,能够在不需要额外训练的情况下提升LLM性能。该框架是模型无关的且开源,易于在大型和小型模型上实现。
Archon旨在帮助开发者创建AI系统,通过使用多种推理技术来简化响应生成。根据扩展智能实验室的说法,这些技术能够显著降低与模型开发和推理相关的成本。随着LLMs朝着更大参数和更复杂推理的发展,尽管OpenAI等公司期望更低价格,开发成本也在持续上升。
研究人员强调,Archon能够自动构建提高任务泛化能力的架构,使模型能够应对超出原始训练范围的挑战。“我们的Archon框架和ITAS算法受启于神经架构和架构搜索实践,”研究人员解释道。“Archon由多层LLM构成,同一层内的模型并行工作,而后续层则顺序处理结果。”
这些层采用多种推理技术来修改候选响应,结合生成与融合(如线性变换)及响应精炼(如非线性处理)。
在包括MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH和CodeContests等基准测试中,Archon的表现超越了GPT-4o和Claude 3.5 Sonnet,领先达15.1个百分点,也优于开源LLM,提升11.2个百分点。
Archon的组成部分
ITAS算法包括几个关键组件,以执行推理技术:
1. 生成器:生成模型的潜在答案。
2. 融合器:将多个响应合成一个一致的答案。例如,当被问及法国的首都时,它将“法国的首都是巴黎”和“法国位于欧洲”合成一个陈述:“位于欧洲的法兰西,其首都为巴黎”。
3. 排序器:对生成的答案进行排名。
4. 评估器:评估排名响应的质量。
5. 验证器:检查逻辑一致性和正确性。
6. 单元测试生成器和评估器:进行小规模测试,以验证响应的准确性。
Archon的结构化方法使得在无需额外微调的情况下,LLM响应的质量能够更快速地提升。
Archon的局限性
目前,Archon在参数为700亿及以上的LLM上表现最佳,例如Meta的Code Llama 70B。这一局限性源于较小模型由于上下文窗口较窄,降低了遵循指令的能力。实际应用中,当Archon应用于7B模型时,性能显著下降了16%。
此外,使用Archon框架的模型的性能比单轮模型落后15.7%。斯坦福实验室指出,Archon不适合需要单次LLM调用迅速响应的应用场景,例如聊天机器人。其架构涉及多次LLM调用,使其在简单的问答任务中效果不佳。然而,Archon在处理需要复杂指令的任务上可能表现更佳,例如编程或高级客户服务场景。
尽管面临这些挑战,研究人员希望Archon能够加速高性能LLM的开发,而无需在推理和训练上增加更多的资本投入。