大型語言模型如何引領機器人創新新時代

近幾個月,利用大型語言模型(LLMs)開發創新機器人應用的項目激增,許多曾經被視為不可能的想法現在正在變為現實。LLMs和多模態模型的強大能力,為研究人員創造了能夠處理自然語言指令和執行需要高級推理的複雜任務的機器人奠定了基礎。

這種對LLMs和機器人技術交叉領域的興趣上升,重新活絡了機器人創業公司市場,許多公司獲得了可觀的資金支持並展示了令人印象深刻的技術演示。隨著LLMs在現實應用中取得顯著進展,我們或許正站在機器人技術新時代的邊緣。

語言模型在感知與推理中的應用

傳統上,構建機器人系統需要複雜的工程努力來開發規劃和推理模組,這使得創建人性化接口以適應人們多樣的指令方式變得困難。LLMs和視覺語言模型(VLMs)的出現,使得機器人工程師能夠以突破性的方式增強現有系統。在這方面的一個關鍵項目是Google Research的SayCan,它利用LLM中的語義知識幫助機器人進行任務推理和決定適當的動作序列。

AI和機器人研究科學家Chris Paxton表示:“SayCan是機器人學上最具影響力的論文之一。它的模組設計允許整合不同組件,搭建出能夠展示引人入勝的演示系統。”

在SayCan之後,研究人員開始以各種方式探索語言和視覺模型在機器人技術中的應用,取得了顯著進展。一些項目使用通用的LLMs和VLMs,而其他則專注於針對特定機器人任務定制現有模型。

Paxton觀察道:“使用大型語言模型和視覺模型,使得感知和推理等方面變得顯著更易於實現,這使得許多機器任務比以往任何時候都更加可行。”

結合現有能力

傳統機器人系統的一個主要限制是其控制機制。團隊可以為機器人訓練個別技能,例如開門或操作物體,但將這些技能結合以完成複雜任務往往充滿挑戰,導致需要明確指令的僵化系統。LLMs和VLMs使得機器人能夠解讀模糊定義的指令,並將其映射到與自身能力相符的具體任務序列。有趣的是,許多先進模型可以在不大規模重訓的情況下實現這一點。

Paxton解釋道:“使用大型語言模型,我能夠無縫連接不同的技能並推理它們的應用。”像GPT-4V這樣的新型視覺語言模型展示了這些系統如何能在各種應用中有效協作。

例如,由多倫多大學、Google DeepMind和Hoku Labs合作開發的GenEM技術,利用LLMs中捕捉的社會背景生成富有表現力的機器人行為。通過利用GPT-4,GenEM使機器人能夠理解上下文,例如點頭以表示承認某人的存在,並根據其訓練數據和上下文學習能力執行相關行動。

另一個例子是Meta和紐約大學共同開發的OK-Robot,它將VLMs與運動規劃和物體操作模塊結合,以在不熟悉的環境中執行拾取和放置任務。

一些機器人創業公司在這些進展中蓬勃發展。總部位於加州的Figure公司最近籌集了6.75億美元,計劃開發利用視覺和語言模型的人形機器人。他們的機器人利用OpenAI模型來處理指令並進行戰略性行動規劃。

然而,儘管LLMs和VLMs能夠解決重大挑戰,機器人團隊仍需為基本技能進行系統工程,例如抓取物體、導航障礙物和在多樣化環境中靈活運動。

Paxton表示:“許多基礎層面的工作仍在進行中,而這些模型尚未涵蓋。這種複雜性強調了數據的需求,現在許多公司正致力於生成這些數據。”

專門化基礎模型

另一種有前景的方法是為機器人創建專門化的基礎模型,這些模型在預訓練模型中嵌入的廣泛知識基礎上構建,並量身定制其架構以適應機器人任務。一個主要的項目是Google的RT-2,一種視覺語言行動(VLA)模型,該模型處理感知數據和語言指令,以生成可操作的指令給機器人。

最近,Google DeepMind推出了RT-X-2,這是一個RT-2的增強版,能夠適應各種機器人的形態並執行其訓練數據集中未包含的任務。此外,DeepMind與斯坦福大學的合作RT-Sketch將粗略草圖轉化為可執行的機器人行動計劃。

Paxton指出:“這些模型代表了一種新方法,作為能處理多任務的擴展策略,這是一個令人興奮的方向,通過端到端學習,機器人可以從攝影機影像中推導出其行動。”

隨著越來越多的基礎模型進入商業領域,Covariant最近推出了RFM-1,這是一個具備80億參數的變壓器模型,經過多樣化輸入的訓練,包括文字、影像、視頻和機器人行動,旨在為各種機器人應用創建一個通用的基礎模型。

同時,在Nvidia GTC大會上展示的Project GR00T,旨在使人形機器人能夠處理文字、語音和視頻等輸入,並轉換為具體的行動。

語言模型的全部潛力仍然尚未充分挖掘,未來將繼續推動機器人研究的進步。隨著LLMs的進一步發展,我們可以期待機器人領域的突破性創新。

Most people like

Find AI tools in YBX