AI推理的新進展:推出Quiet-STaR
人類擁有獨特的推理能力,能夠思考「如果」和「為什麼」,並解讀隱含信息以解決複雜問題。然而,傳統AI模型在這一推理層次上表現不佳。來自史丹福大學和Notbad AI, Inc.的研究人員開發了Quiet-STaR,這是自學推理器(STaR)模型的一個創新擴展,旨在教會AI在回應之前進行思考,模仿人類的思考過程。
Quiet-STaR的增強功能
Quiet-STaR被實施在Mistral 7B模型上,顯著提高了其零樣本推理能力。在以下領域觀察到顯著進步:
- 常識問答準確率(從36.3%提升至47.2%)
- GSM8K小學數學問題解答(從5.9%提升至10.9%)
這些增強與模型內部思考的令牌數量密切相關。研究人員指出,「Quiet-STaR是邁向能夠以更通用和可擴展方式進行推理的語言模型的一步。」
AI推理的先前限制
早期的AI推理方法過於依賴於特定任務的訓練,導致其通用性有限。模型通常在針對狹窄任務的小心策劃數據集上進行訓練,限制了它們適應更廣泛場景的能力。例如,雖然針對人類推理調整的語言模型超越了直接回答型AI,但這些方法仍然局限於特定數據集。STaR模型顯示AI可以通過反復學習問答數據集來增強推理能力,但過於依賴策劃數據限制了其可擴展性。
研究人員強調,「來自這些數據集的訓練本質上只能涵蓋推理任務的一部分」,因此需要模型從多樣化文本輸入中提取推理基礎。
Quiet-STaR方法論
Quiet-STaR技術在每個令牌生成多個內部思考,並在回應之前參與「思考」過程,這使AI能夠以增強的上下文評估未來的文本。通過運用REINFORCE算法,模型優化其預測,剔除較不準確的輸出,並在訓練過程中反覆精煉推理能力。
為了促進通用推理,研究人員採用了零樣本提示(「讓我們一步一步思考」)並在多樣的網路文本數據集(如OpenWebMath和Colossal Clean Crawled Corpus)上訓練Quiet-STaR。「Quiet-STaR使模型能夠在每個令牌層級靜靜思考,促進了提升效用的分布」,他們指出。