人類經常透過表達性行為來傳達目標和意圖。例如,我們點頭向同事問好,搖頭表示不滿,或在擁擠的地方說「對不起」以便通過。為了促進與人類的順暢互動,移動機器人也必須展現類似的表達性行為。然而,這對於機器人技術仍然是一項重大挑戰,目前的解決方案通常缺乏靈活性和適應性。
在一項突破性的研究中,多倫多大學、Google DeepMind和Hoku Labs的研究人員提出了一種名為GenEM的新方法,利用大型語言模型(LLMs)中豐富的社交背景,讓機器人能夠進行表達性行為。透過各種提示方法,GenEM使機器人能有效解讀環境並複製人類類似的表達。
機器人的表達性行為
傳統上,創建表達性機器人行為依賴於規則或模板系統,這需要為每個機器人和環境大量手動輸入。這種僵化意味著任何變更或調整都需要廣泛的重新編程。較現代的技術則傾向於數據驅動的方法,提供更大的靈活性,但通常需要針對每個機器人互動專門設置的數據集。
GenEM重新定義了這種方法,利用LLMs中豐富的知識來動態生成表達性行為,無需傳統的模型訓練或繁瑣的規則集。例如,LLMs能識別眼神接觸或點頭在不同社交情境中的重要性。
「我們的關鍵見解是利用LLMs中的豐富社交背景,創造可適應和可組合的表達性行為。」研究人員解釋道。
生成性表達運動(GenEM)
GenEM採用一系列LLM代理,自主根據自然語言指令生成表達性機器人行為。每個代理通過推理社交背景,將這些行為轉化為機器人的可執行API調用。
「GenEM能利用機器人的能力產生多模態行為,例如語音和身體動作,以清晰表達意圖,」研究人員指出。「GenEM的一個突出特點是能夠適應實時的人類反饋,實現反覆改進和新表達行為的生成。」
GenEM的工作流程始於自然語言指令,可以是具體的表達動作,如「點頭」,或設定社交情境,例如「一個路過的人向你揮手。」起初,一個LLM使用鏈式思維推理一個人可能的反應。另一個LLM代理然後將其轉換為反映機器人可用功能的逐步指導,指導動作如傾斜頭部或觸發特定燈光模式。
接下來,程序指令被轉換為可執行代碼,依靠機器人的API指令。可選的人類反饋可進一步完善行為,所有過程中無需對LLMs進行訓練,只需要根據機器人規格進行提示工程調整。
測試GenEM
研究人員評估了兩種GenEM變體生成的行為——一種納入了用戶反饋,另一種則沒有——並與專業動畫師創作的劇本行為進行比較。利用OpenAI的GPT-4進行背景推理和生成表達行為,他們調查了用戶對結果的反應。結果顯示,用戶普遍認為GenEM生成的行為與專業動畫師的表現同樣容易理解。此外,GenEM的模組化、多步驟方法明顯優於先前的單一LLM方法。
至關重要的是,GenEM的基於提示的設計可適應任何類型的機器人,而無需專門數據集進行訓練。它有效地利用LLM推理,從簡單的機器人動作中創造復雜的表達性行為。
「我們的框架通過上下文學習和少量提示快速生成表達性行為,顯著降低了對精心策劃數據集或過於繁瑣的規則制定的需求,這在早期方法中尤為明顯,」研究人員總結道。
儘管GenEM仍處於早期階段,主要在單一互動場景和有限行動空間中進行測試,但在擁有更多多樣基本動作的機器人中仍有探索潛力,大型語言模型有望進一步增強這些能力。
「我們相信,我們的方法提供了一個靈活的框架,用於生成可適應和可組合的表達性運動,充分利用大型語言模型的力量。」研究人員總結道。