Archon推理框架提高大型语言模型速度与效率，无需额外成本

Home AI News CN Archon推理框架提高大型语言模型速度与效率，无需额外成本

斯坦福大学的扩展智能实验室最近推出了一个新推理框架，名为Archon，旨在提高大型语言模型（LLMs）生成响应的效率。Archon采用推理时架构搜索（ITAS）算法，能够在不需要额外训练的情况下提升LLM性能。该框架是模型无关的且开源，易于在大型和小型模型上实现。

Archon旨在帮助开发者创建AI系统，通过使用多种推理技术来简化响应生成。根据扩展智能实验室的说法，这些技术能够显著降低与模型开发和推理相关的成本。随着LLMs朝着更大参数和更复杂推理的发展，尽管OpenAI等公司期望更低价格，开发成本也在持续上升。

研究人员强调，Archon能够自动构建提高任务泛化能力的架构，使模型能够应对超出原始训练范围的挑战。“我们的Archon框架和ITAS算法受启于神经架构和架构搜索实践，”研究人员解释道。“Archon由多层LLM构成，同一层内的模型并行工作，而后续层则顺序处理结果。”

这些层采用多种推理技术来修改候选响应，结合生成与融合（如线性变换）及响应精炼（如非线性处理）。

在包括MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH和CodeContests等基准测试中，Archon的表现超越了GPT-4o和Claude 3.5 Sonnet，领先达15.1个百分点，也优于开源LLM，提升11.2个百分点。

Archon的组成部分

ITAS算法包括几个关键组件，以执行推理技术：

1. 生成器：生成模型的潜在答案。

2. 融合器：将多个响应合成一个一致的答案。例如，当被问及法国的首都时，它将“法国的首都是巴黎”和“法国位于欧洲”合成一个陈述：“位于欧洲的法兰西，其首都为巴黎”。

3. 排序器：对生成的答案进行排名。

4. 评估器：评估排名响应的质量。

5. 验证器：检查逻辑一致性和正确性。

6. 单元测试生成器和评估器：进行小规模测试，以验证响应的准确性。

Archon的结构化方法使得在无需额外微调的情况下，LLM响应的质量能够更快速地提升。

Archon的局限性

目前，Archon在参数为700亿及以上的LLM上表现最佳，例如Meta的Code Llama 70B。这一局限性源于较小模型由于上下文窗口较窄，降低了遵循指令的能力。实际应用中，当Archon应用于7B模型时，性能显著下降了16%。

此外，使用Archon框架的模型的性能比单轮模型落后15.7%。斯坦福实验室指出，Archon不适合需要单次LLM调用迅速响应的应用场景，例如聊天机器人。其架构涉及多次LLM调用，使其在简单的问答任务中效果不佳。然而，Archon在处理需要复杂指令的任务上可能表现更佳，例如编程或高级客户服务场景。

尽管面临这些挑战，研究人员希望Archon能够加速高性能LLM的开发，而无需在推理和训练上增加更多的资本投入。

DeepMind的SCoRe展示大型语言模型如何利用内部知识自我纠正错误

OpenAI 2024开发日：提升人工智能可及性和经济性的四大关键更新

Most people like

GrapixAi

687.7K

GPU租赁和服务正在成为现代计算需求中不可或缺的一部分。随着人工智能、深度学习、数据分析等领域的迅速发展，企业和个人对高性能计算资源的需求不断上升。通过GPU租赁，用户可以灵活地获得强大的图形处理能力，而无需高昂的初始投资。这种服务不仅能够显著降低成本，而且可以根据不同项目的需求进行快速调整。本文将深入探讨GPU租赁的优势、服务类型以及如何选择最佳解决方案，以帮助用户提升计算效率，优化资源配置。

GPU租赁其他