為了提升大型語言模型(LLM)的推理能力,Google DeepMind 和南加州大學的研究人員推出了一種突破性的「自我發現」提示框架。這項創新方法在 arXiv 和 Hugging Face 上發表,超越了現有的提示技術,並在多個模型的表現上顯示出改進,包括 OpenAI 的 GPT-4 和 Google 的 PaLM 2。
研究者在論文中表示:「自我發現相較於思維鏈(CoT)方法,在 BigBench-Hard 和 MATH 等挑戰性推理基準上的表現提升高達 32%。」自我發現框架使 LLM 能夠自主識別特定任務的推理結構,有效解決問題。透過分析多個原子推理模組,如批判性思維和逐步推理,模型可以構建明確的推理框架用於問題解決。
這一方法最具吸引力的方面在於其效率,所需計算能力降低 10 到 40 倍,對企業而言極具優勢。
LLM 推理的演進
LLM 由於具備處理指令、推理與生成連貫答案的能力,已發展出能夠應對多樣任務的能力。這些模型利用變換器架構,採用來自人類推理和問題解決的認知理論所提煉出的多種提示策略,包括少樣本和零樣本的思維鏈提示、將任務分解為子問題和反思性回顧提示以推導一般原則。
儘管這些方法,特別是思維鏈,效果顯著,但通常依賴於對任務處理方式的隱性假設。研究人員認為,這可能並不最佳,因為每個任務都有其獨特的內在結構,可能受益於量身定制的技術。透過最新研究,DeepMind 和 USC 團隊提出了一個綜合提示框架,能自主識別基本結構,以選擇最恰當的推理策略並優化效率。
研究者補充道:「自我發現的模型源於人類如何為問題解決創建內部推理程序。在自然語言原子推理模組中,LLM 於第 1 階段組建出特定任務的連貫推理結構,於第 2 階段運用該結構來解決實際任務。」
顯著的表現增長
為評估新框架的有效性,研究者在 25 個推理任務上對包括 GPT-4 和 PaLM 2-L 在內的多個模型進行測試,涵蓋 BigBench-Hard 和 MATH。自我發現框架在 25 個任務中有 21 個超過了思維鏈方法,表現增長高達 32%,並顯著提高了效率,推理計算需求減少 10 到 40 倍。
測試結果顯示,當使用 GPT-4 測試時,自我發現方法在 BigBench-Hard、Thinking for Doing 和 MATH 任務中的準確率分別為 81%、85% 和 73%;而思維鏈方法的準確率分別為 75%、52% 和 71%。與計畫與解決方法的比較中也觀察到類似的性能差距。
對於 PaLM 2-L,在三個任務中的準確率分別為 67%、69% 和 50.5%,優於思維鏈(60%、40%、42%)和計畫與解決(61%、42%、49%)的方法。
推進人工智慧的推理能力
自我發現提示框架可能會徹底改變 LLM 解決問題的方式,使其更接近實現通用智能。轉移性研究顯示,組成的推理結構在各種模型之間具有廣泛的適用性,且與人類推理具有相似特徵。
團隊總結道:「展望未來,我們期待持續探索 LLM 中的結構化推理,以提升問題解決能力,並開啟人類與人工智慧合作的新途徑。」