大型語言模型(LLMs)在各個領域的進步令人矚目,但其推理能力仍然是活躍的研究領域。近期的研究探討了不同的提示技術,以提升LLMs的邏輯問題解決能力。
來自Meta研究人員的一項突破性方法稱為系統2注意力(System 2 Attention,簡稱S2A),該方法整合了心理學的概念。S2A通過去除誤導性或不相關的信息來精煉用戶的提示,使LLMs能專注於任務相關的數據。這種集中注意力的方式提高了回答問題和推理任務的準確性。
初步實驗顯示,使用S2A的語言模型有顯著改善,特別適合需要可靠推理能力的應用。
LLMs與推理
LLMs的推理表現存在變異。雖然某些提示工程策略能提升其效果,但當面對提示中不相關或帶有個人觀點的內容時,這些模型經常遇到困難。例如,當提示中包含個人意見或猜測時,模型可能僅僅重複用戶的輸入,而無法提供準確的答案。
這一限制源於變壓器(transformers)的訓練和注意力機制,這是LLMs所使用的架構。變壓器主要專注於預測下一個令牌,對上下文輸入過於敏感。如果某個實體在特定上下文中提及,模型往往會預測其重複出現,這可能導致輸出偏向強調重複的令牌。
理解系統2注意力
研究人員提出了一種創新的注意力機制,充分利用LLMs作為自然語言的推理器。他們解釋道:“我們利用LLMs執行指令的能力,促使其生成集中於相關材料的上下文,減少推理中的偏見。”
通過使用經過指令調整的LLMs來修正其上下文,S2A有效地消除了不必要的文本,引導模型在生成回答之前優先考慮相關信息。系統2注意力一詞源於心理學家丹尼爾·卡尼曼(Daniel Kahneman)在其著作《思考,快與慢》中討論的系統1和系統2思維概念。
系統1思維快速直觀,但因依賴心理捷徑可能導致偏見。相對地,系統2思維則是分析性思維,需較大的認知努力,以更邏輯的方式處理信息。S2A機制旨在減輕LLMs在解決推理任務時採用標準注意力方法所引發的問題。
研究人員指出:“與傳統的基於注意力的LLMs相比,S2A生成的回答更具事實性,並最小化偏見。”
S2A的運作方式
S2A技術由簡單的兩步過程組成。首先,S2A通過去除不相關的部分來修改原始上下文。然後,經過修正的上下文被傳遞給主要的LLM以生成輸出。
實現第一步有多種方式。研究人員表示:“我們的方法利用指令調整的LLMs,這些模型在相似推理和生成任務中非常熟練,使我們能將其作為一個指令提示來執行。”
使用經過指令調整的LLMs可根據任務需求或微調過程精確控制模型的注意力。例如,研究人員設計了一個函數,發送零樣本提示,要求LLM在原始提示上執行所需的S2A任務。這一提示指示模型重生成上下文,並從查詢中分離出有用信息,以澄清推理步驟。
他們還引入了多個S2A變體。對於較短的上下文或強大的LLMs,將上下文與問題分開可能不是必要的。僅僅提示非分區的重寫就可以滿足需求。另一個變體則保持原始提示,同時添加S2A生成的查詢,讓模型能夠訪問兩個版本。
研究人員在各種任務上測試了S2A,包括回答問題、長形式推理和包含不相關或誤導性信息的數學問題。S2A的目標是通過引導模型依據能提供最準確答案的數據來客觀回答問題。
結果與未來方向
實驗表明,S2A對於意見偏見具有抵抗力,使LLMs的表現幾乎與可提供無干擾的清晰提示時一樣出色。此外,配備S2A的LLMs在長形式生成任務中表現出更佳的客觀性。
然而,研究人員也承認S2A並非萬無一失;模型仍可能偶爾受到不相關關聯的影響。此外,S2A增加了生成回答的計算成本,因為它引入了額外的步驟和需要上下文信息的提取。這些方面突顯了未來增強的領域,使S2A成為LLMs應用推理技術工具箱中的一項有前景的補充。