人類提示強化學習:一種修正人工智慧系統錯誤的創新方法

加州大學伯克利分校的科學家推出了一種突破性的機器學習技術,稱為「透過干預反饋的強化學習」(RLIF)。這一創新方法簡化了在複雜環境中訓練人工智慧系統的過程。

RLIF結合了強化學習和互動模仿學習,這兩種方法對於人工智慧的訓練至關重要。它特別適用於獎勵信號稀少且人類反饋不精確的情況,這是機器人訓練中常見的挑戰。

理解技術:強化學習與模仿學習

強化學習在明確的獎勵函數環境中表現優異,因此對於最佳控制、遊戲和使大型語言模型(LLMs)符合人類偏好非常有效。然而,在機器人學中,複雜的目標往往缺乏明確的獎勵信號,使其面臨挑戰。

在這種情況下,工程師會轉向模仿學習,這是一種無需獎勵信號的監督學習子集。它通過人類的示範來訓練模型。例如,人類可以指導機器手臂操作物體,提供一個可視化範例供AI模仿。代理視這些示範為訓練數據。

儘管模仿學習有其優勢,但仍面臨挑戰,特別是「分佈不匹配問題」。當代理遇到訓練示例之外的場景時,會導致性能下降。互動模仿學習通過使專家能夠實時反饋來解決此問題,在代理行動偏離理想軌道時進行修正。然而,這種方法往往依賴於幾乎最優的干預,這在機器人領域中可能並不總是可行。

融合方法:強化學習與模仿學習

伯克利的研究人員提出了一種混合模型,利用強化學習和互動模仿學習的優勢。RLIF的基礎是認識到,識別錯誤通常比執行完美的修正更容易。

以自動駕駛為例,干預(如緊急煞車)表示偏差,但不提供最佳反應模型。RL代理應著重於避免觸發干預的情況,而非僅僅模仿行動。

研究人員表示:「在互動模仿階段進行干預的決策可以為強化學習提供獎勵信號。」這使得RL方法能夠在類似但更靈活的假設下運作,利用人類的干預而不假定其最佳性。

RLIF以示範和互動干預的組合訓練代理,但將這些干預視為潛在錯誤的指標,而非最佳行動的明確指南。

研究人員指出,「我們預期專家在訓練策略作出次優行動時更可能進行干預。」他們強調,這些干預作為修改AI行為的重要信號。

通過克服傳統強化學習和互動模仿學習的限制——例如對確切獎勵函數和最佳干預的需求——RLIF在複雜環境中顯得更具實用性。

研究人員補充說:「專家可能更容易識別不理想的狀態,而非在這些情況中持續做出最佳行動。」

RLIF的測試

伯克利團隊將RLIF與DAgger這一知名的互動模仿學習算法進行比較。在模擬環境中,RLIF的表現平均超過頂尖的DAgger變體兩到三倍,當專家干預不最優時,這一差距擴大至五倍。

實際測試涉及機器人挑戰,例如物體操作和摺疊布料,進一步驗證了RLIF在實際情境中的堅韌性和適用性。

儘管RLIF面臨一些挑戰,例如對數據的高需求和實時部署的複雜性,但它在訓練各種應用的先進機器人系統方面展現出重要潛力,成為AI領域的變革性工具。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles