人們普遍需要正向回饋,同樣地,人工智慧(AI)也能從模仿人類互動的建議中獲益。Google DeepMind的研究人員提出了一種革命性的方法,透過模擬日常人際交往的提示,顯著提升了語言模型的數學能力。這一創新方法在其論文《大型語言模型作為優化器》中詳述,稱為通過提示優化(OPRO)。
OPRO利用自然語言引導大型語言模型,如OpenAI的ChatGPT,解決複雜問題。傳統機器學習依賴正式的數學過程來提升性能,而OPRO則利用易於理解的對話語言來啟動改進。透過詮釋問題描述及先前回應,語言模型能生成潛在解決方案。
約翰霍普金斯大學的運營管理與商業分析教授戴廷龍表示:“大型語言模型是基於人類生成的內容進行訓練的,簡而言之,它們以一對良好伴侶的方式來完成你的句子。因此,人性化的提示能導致良好結果並不意外。”這突顯了提示措辭對AI結果的重大影響。
DeepMind的研究顯示,某些措辭顯著影響模型表現。例如,「讓我們一步一步來思考」這類提示能在數學問題解決中提高準確性。句子「深呼吸,並一步步解決這個問題」在Google的PaLM 2評估時取得了80.2%的準確度,該評估使用了GSM8K這一小學數學文字問題數據集。相比之下,在未使用任何特定提示的情況下,PaLM 2僅達到34%,而經典提示「讓我們一步一步來思考」的準確度為71.8%。
賓夕法尼亞大學計算機與信息科學教授邁克爾·基爾恩斯指出,大型語言模型因訓練於對話數據(如Reddit文章和電影劇本)而能夠根據人性化提示調整其回答。他強調,鼓勵大型語言模型將數學或邏輯問題分解為可管理的步驟是非常重要的,而其訓練數據也涵蓋了數學證明和邏輯推理。
DeepMind論文的共同作者章潤陽解釋道,大型語言模型通常會利用龐大的數據集進行訓練,從而使其在自然語言處理方面擁有強大的能力,包括意義同義和句子增強。持續的模型對齊工作也提高了大型語言模型理解和回應人性化提示的能力。
Smartling的人工智慧與機器翻譯副總裁奧爾加·別列戈瓦亞指出,人性化的提示通常表現為指引AI進入更具對話性互動的請求。“大型語言模型在獲得更多上下文時表現最佳,”她補充說。冗長的提示提供了額外細節,讓模型的回應更能與特定上下文貼合。
有趣的是,簡單的鼓勵用語也能提升AI表現。戴教授提到,當用戶激勵大型語言模型時,例如說「加油,你能更好!」,其結果可能會更佳。值得注意的是,例如讓大型語言模型扮演諾貝爾獎得主經濟學家的請求,能引發對複雜主題(如通脹)的更深入討論。同樣,在醫學診斷情境中,指導大型語言模型以領先醫學專家的身份進行對話,可能會產生更準確且專注的結果。然而,他同時指出,這些人性化的鼓勵雖然有效,卻不能保證在所有任務上都有普遍的改善。
值得一提的是,大型語言模型也潛在能對針對特定任務的非人性化提示反應良好。戴教授提到,結構化的編碼提示能產生有效結果,這與傳統對話方法形成對比。
OPRO方法能簡化AI提示的工程過程,讓用戶根據各種指標(如數學問題解決的準確性、工具觸發率和文本生成的創造力)優化查詢。章潤陽期望這一方法能激發新的應用,利用大型語言模型提升更廣泛的任務,為更具互動性和效率的AI解決方案鋪平道路。