DeepMind的GenEM運用大型語言模型創造生動的機器人行為

Home AI新聞 DeepMind的GenEM運用大型語言模型創造生動的機器人行為

人類經常透過表達性行為來傳達目標和意圖。例如，我們點頭向同事問好，搖頭表示不滿，或在擁擠的地方說「對不起」以便通過。為了促進與人類的順暢互動，移動機器人也必須展現類似的表達性行為。然而，這對於機器人技術仍然是一項重大挑戰，目前的解決方案通常缺乏靈活性和適應性。

在一項突破性的研究中，多倫多大學、Google DeepMind和Hoku Labs的研究人員提出了一種名為GenEM的新方法，利用大型語言模型（LLMs）中豐富的社交背景，讓機器人能夠進行表達性行為。透過各種提示方法，GenEM使機器人能有效解讀環境並複製人類類似的表達。

機器人的表達性行為

傳統上，創建表達性機器人行為依賴於規則或模板系統，這需要為每個機器人和環境大量手動輸入。這種僵化意味著任何變更或調整都需要廣泛的重新編程。較現代的技術則傾向於數據驅動的方法，提供更大的靈活性，但通常需要針對每個機器人互動專門設置的數據集。

GenEM重新定義了這種方法，利用LLMs中豐富的知識來動態生成表達性行為，無需傳統的模型訓練或繁瑣的規則集。例如，LLMs能識別眼神接觸或點頭在不同社交情境中的重要性。

「我們的關鍵見解是利用LLMs中的豐富社交背景，創造可適應和可組合的表達性行為。」研究人員解釋道。

生成性表達運動（GenEM）

GenEM採用一系列LLM代理，自主根據自然語言指令生成表達性機器人行為。每個代理通過推理社交背景，將這些行為轉化為機器人的可執行API調用。

「GenEM能利用機器人的能力產生多模態行為，例如語音和身體動作，以清晰表達意圖，」研究人員指出。「GenEM的一個突出特點是能夠適應實時的人類反饋，實現反覆改進和新表達行為的生成。」

GenEM的工作流程始於自然語言指令，可以是具體的表達動作，如「點頭」，或設定社交情境，例如「一個路過的人向你揮手。」起初，一個LLM使用鏈式思維推理一個人可能的反應。另一個LLM代理然後將其轉換為反映機器人可用功能的逐步指導，指導動作如傾斜頭部或觸發特定燈光模式。

接下來，程序指令被轉換為可執行代碼，依靠機器人的API指令。可選的人類反饋可進一步完善行為，所有過程中無需對LLMs進行訓練，只需要根據機器人規格進行提示工程調整。

測試GenEM

研究人員評估了兩種GenEM變體生成的行為——一種納入了用戶反饋，另一種則沒有——並與專業動畫師創作的劇本行為進行比較。利用OpenAI的GPT-4進行背景推理和生成表達行為，他們調查了用戶對結果的反應。結果顯示，用戶普遍認為GenEM生成的行為與專業動畫師的表現同樣容易理解。此外，GenEM的模組化、多步驟方法明顯優於先前的單一LLM方法。

至關重要的是，GenEM的基於提示的設計可適應任何類型的機器人，而無需專門數據集進行訓練。它有效地利用LLM推理，從簡單的機器人動作中創造復雜的表達性行為。

「我們的框架通過上下文學習和少量提示快速生成表達性行為，顯著降低了對精心策劃數據集或過於繁瑣的規則制定的需求，這在早期方法中尤為明顯，」研究人員總結道。

儘管GenEM仍處於早期階段，主要在單一互動場景和有限行動空間中進行測試，但在擁有更多多樣基本動作的機器人中仍有探索潛力，大型語言模型有望進一步增強這些能力。

「我們相信，我們的方法提供了一個靈活的框架，用於生成可適應和可組合的表達性運動，充分利用大型語言模型的力量。」研究人員總結道。

AMD 推出嵌入式+架構，革新邊緣 AI 硬體

Menlo Ventures 的願景：塑造人工智慧安全的未來