斯坦福大學的擴展智能實驗室研究人員揭示了一種新的推斷框架——Archon,旨在提升大型語言模型(LLMs)生成應答的效率。Archon採用了推斷時架構搜尋(ITAS)演算法,能在不需要額外訓練的情況下提升LLM的性能。這一與模型無關的開源框架可輕鬆實施於大中小型模型。
Archon旨在幫助開發者利用各種推斷技術簡化回應生成過程。根據擴展智能實驗室的說法,這些技術能顯著降低模型開發和推斷的成本。隨著LLMs朝著更大參數和更複雜推理的發展,成本可能會上升,儘管像OpenAI這樣的公司希望能提供更具價格優勢的方案。
研究人員強調,Archon自動設計增強任務通用性的架構,使模型能解決超出其原始訓練範疇的挑戰。他們解釋道:“我們的Archon框架和ITAS演算法受到神經架構和架構搜尋實踐的啟發。Archon由多層LLMs組成,同一層內的模型是並行運作,而每一層依次處理結果。”
這些層使用各種推斷技術來修改候選回應,包括生成與融合(如線性轉換)以及回應精煉(如非線性處理)。在MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH和CodeContests等基準測試中,Archon超越了GPT-4o和Claude 3.5 Sonnet,增幅達15.1個百分點。它還以11.2個百分點的優勢表現優於開源的LLMs。
Archon的組件包括:
1. 生成器:為模型生成潛在答案。
2. 融合器:將這些回應組合成一致的答案。例如,當被問及法國首都時,它能將“法國的首都為巴黎”和“法國位於歐洲”等回應合成為:“法國的首都,這個位於歐洲的國家,是巴黎。”
3. 排序器:對生成的答案進行排序。
4. 評估器:評估排名後回應的質量。
5. 驗證器:檢查邏輯一致性和正確性。
6. 單元測試生成器和評估器:進行小型測試以驗證回應的準確性。
Archon的結構化方法使得在不需要額外微調的情況下,LLM的回應質量能夠更快提升。
Archon的局限性在於,目前它最佳表現於參數達70億或更多的LLMs,如Meta的Code Llama 70B。這一限制源於較小模型因上下文窗口狹窄而難以遵循指令的能力。研究顯示,當Archon應用於7B模型時,性能下降幅度達16%。
此外,使用Archon框架的模型在單回合模型中落後15.7%。斯坦福實驗室指出,Archon不適合需要快速單一LLM調用的應用,如聊天機器人。由於其架構涉及多次LLM調用,對於簡單的查詢回應任務效果較差。然而,Archon在處理需要複雜指令的更高難度任務,如程式設計或高級客戶服務情境中,可能表現出色。
儘管面臨一些挑戰,研究人員仍希望Archon能在無需增加推斷和訓練資本投入的情況下,加速高效能LLMs的發展。