人類提示強化學習：一種修正人工智慧系統錯誤的創新方法

Home AI新聞人類提示強化學習：一種修正人工智慧系統錯誤的創新方法

Updated on 十二月 5 2023

加州大學伯克利分校的科學家推出了一種突破性的機器學習技術，稱為「透過干預反饋的強化學習」（RLIF）。這一創新方法簡化了在複雜環境中訓練人工智慧系統的過程。

RLIF結合了強化學習和互動模仿學習，這兩種方法對於人工智慧的訓練至關重要。它特別適用於獎勵信號稀少且人類反饋不精確的情況，這是機器人訓練中常見的挑戰。

理解技術：強化學習與模仿學習

強化學習在明確的獎勵函數環境中表現優異，因此對於最佳控制、遊戲和使大型語言模型（LLMs）符合人類偏好非常有效。然而，在機器人學中，複雜的目標往往缺乏明確的獎勵信號，使其面臨挑戰。

在這種情況下，工程師會轉向模仿學習，這是一種無需獎勵信號的監督學習子集。它通過人類的示範來訓練模型。例如，人類可以指導機器手臂操作物體，提供一個可視化範例供AI模仿。代理視這些示範為訓練數據。

儘管模仿學習有其優勢，但仍面臨挑戰，特別是「分佈不匹配問題」。當代理遇到訓練示例之外的場景時，會導致性能下降。互動模仿學習通過使專家能夠實時反饋來解決此問題，在代理行動偏離理想軌道時進行修正。然而，這種方法往往依賴於幾乎最優的干預，這在機器人領域中可能並不總是可行。

融合方法：強化學習與模仿學習

伯克利的研究人員提出了一種混合模型，利用強化學習和互動模仿學習的優勢。RLIF的基礎是認識到，識別錯誤通常比執行完美的修正更容易。

以自動駕駛為例，干預（如緊急煞車）表示偏差，但不提供最佳反應模型。RL代理應著重於避免觸發干預的情況，而非僅僅模仿行動。

研究人員表示：「在互動模仿階段進行干預的決策可以為強化學習提供獎勵信號。」這使得RL方法能夠在類似但更靈活的假設下運作，利用人類的干預而不假定其最佳性。

RLIF以示範和互動干預的組合訓練代理，但將這些干預視為潛在錯誤的指標，而非最佳行動的明確指南。

研究人員指出，「我們預期專家在訓練策略作出次優行動時更可能進行干預。」他們強調，這些干預作為修改AI行為的重要信號。

通過克服傳統強化學習和互動模仿學習的限制——例如對確切獎勵函數和最佳干預的需求——RLIF在複雜環境中顯得更具實用性。

研究人員補充說：「專家可能更容易識別不理想的狀態，而非在這些情況中持續做出最佳行動。」

RLIF的測試

伯克利團隊將RLIF與DAgger這一知名的互動模仿學習算法進行比較。在模擬環境中，RLIF的表現平均超過頂尖的DAgger變體兩到三倍，當專家干預不最優時，這一差距擴大至五倍。

實際測試涉及機器人挑戰，例如物體操作和摺疊布料，進一步驗證了RLIF在實際情境中的堅韌性和適用性。

儘管RLIF面臨一些挑戰，例如對數據的高需求和實時部署的複雜性，但它在訓練各種應用的先進機器人系統方面展現出重要潛力，成為AI領域的變革性工具。

天文學家提升 Apache Airflow，以在人工智慧應用中進行數據編排

提升企業資料庫效能：Open-Source SuperDuperDB 如何整合 AI 以優化表現

Most people like

OctoAI

86K

介紹一個專為生成式人工智能應用而設計的雲端平台。此創新解決方案利用雲端的力量來簡化流程、提升創意並推動人工智能開發的效率。探索我們的平台如何轉變您的項目，並在生成式人工智能領域釋放新可能性。

生成式人工智慧 AI Photo & Image Generator

Zapata AI

20.7K

在當今快速變化的商業環境中，工業生成式人工智慧正在徹底改變企業解決方案。透過先進的算法和機器學習，組織能提升生產力、驅動創新並優化運營。這種變革性技術使企業能夠創造符合其特定需求的定制解決方案，從而促進更智能的決策並在競爭激烈的市場中促進增長。擁抱未來的工業生成式人工智慧，探索它如何重新定義您的企業戰略。

工業生成式人工智慧 Large Language Models (LLMs)

AIChatOnline.org： The Best ChatGPT Alternative Free

335.8K

發掘最佳的 ChatGPT 替代方案，提升您的 AI 聊天能力！與先進的聊天解決方案進行互動，增強您的交流體驗，這些方案專為滿足您的需求而設計。不論您是在尋找創新功能或卓越性能，探索這些強大的選擇，讓互動變得更具變革性。

ChatGPT 替代方案 Large Language Models (LLMs)

Offline Chat: Private AI

28.4M

在當今的數位環境中，裝置內大型語言模型（LLMs）與檢索增強生成（RAG）技術的整合代表了人工智慧的一項重大突破。這種創新方法不僅提升了 AI 系統的能力，還確保它們在邊緣高效運行，最小化延遲並最大化性能。在我們探索裝置內處理與 RAG 的交集時，您將發現這種協同效應如何轉變用戶體驗，並推動各種應用中的智能解決方案。請與我們一起深入了解這項革命性技術！

AI 聊天機器人 AI Chatbot

Find AI tools in YBX