今天,Google在位於山景城的年度I/O開發者大會上,推出了多項與人工智慧相關的公告,其中包括雄心勃勃的Project Astra計畫,旨在為未來開發一個通用的AI代理人。大會上展示了該代理人的初始版本。其目標是創造一個多模態AI助手,能夠感知並理解其環境,實時回應以協助處理日常任務與問題。這一理念與OpenAI最近推出的基於GPT-4o的ChatGPT密切相關。
當OpenAI在接下來的幾週內準備為ChatGPT Plus訂閱者推出GPT-4o時,Google則對Astra採取了更加謹慎的策略。雖然Google仍在不斷完善此計畫,但尚未公布完全運作的AI代理人何時將會推出。不過,Astra計畫的一些功能預計將在今年稍晚整合入Gemini助手中。
Project Astra的期待
Project Astra(先進的感知與對話反應代理)建立在Gemini Pro 1.5以及其他專業模型的進展之上。該助手能夠在用戶與周圍環境交互時,理解其細微的動態。設計上,助手能夠理解所見所聞,並實時提供準確的答案。Google DeepMind的CEO Demis Hassabis表示:「要真正發揮作用,代理人需要像人類一樣理解並回應複雜而動態的世界。它必須吸收並記住所見所聞,以洞察上下文並採取行動。此外,它應該具有主動性、可教性和個人化,促成自然的對話,無需延遲。」
在一段演示視頻中,一個基於Pixel手機運行的Project Astra原型代理人能夠識別物體,描述其組成部分,並解讀白板上的代碼。該代理人甚至通過攝像頭識別附近環境,並記得用戶放置眼鏡的位置。
Google Project Astra的應用
第二個演示突出了類似的功能,例如代理人提出系統架構的改進建議,並通過眼鏡實時顯示增強效果。Hassabis承認,實現類人反應時間的重大工程挑戰。這些代理人不斷編碼視頻幀,將視頻和語音輸入合併成時間軸,以便高效回憶。
「透過我們先進的語音模型,我們改善了代理人的語音能力,讓其能表現更豐富的語調範圍。這一提升使代理人更能理解其上下文,快速做出回應。」他補充道。與此相比,OpenAI的GPT-4o則在統一模型中處理所有輸入和輸出,實現平均320毫秒的回應時間。Google尚未披露Astra的具體回應時間,但隨著開發的持續進展,延遲預計會有所改善。Project Astra代理人的情感範圍與OpenAI的能力相比尚不明朗。
可用性
目前,Astra代表了Google在設計協助日常工作(無論是個人還是專業)方面的初步努力,並保持對上下文的認知與記憶。該公司尚未具體說明這一願景何時會實現為具體產品,但已確認將把理解和互動真實世界的能力整合入Gemini應用程序,涵蓋Android、iOS和網頁平台。
Gemini Live功能將最初使用戶能與聊天機器人進行雙向對話。今年稍後,預計將更新視覺能力,允許用戶通過攝像頭與周圍環境互動。值得注意的是,用戶還能在對話中打斷Gemini,這一功能類似於OpenAI的ChatGPT。
Hassabis總結道:「有了這樣的技術,未來人們可以想象擁有一位專家AI助手伴隨在側,無論是通過智能手機還是眼鏡。」