今日,在位于山景城的年度I/O开发者大会上,谷歌发布了一系列以人工智能为中心的公告,特别介绍了“Astra计划”——一个旨在开发未来通用AI助手的雄心勃勃的项目。
在大会上,初版代理人进行了展示。该项目的目标是创建一个多模态人工智能助手,能够感知和理解其环境,实时回应,以协助处理日常任务和咨询。这一理念与最近OpenAI推出的 GPT-4o驱动的ChatGPT紧密相关。
你准备好迎接AI助手了吗?
随着OpenAI计划在未来几周内向ChatGPT Plus订阅者推出GPT-4o,谷歌则在Astra项目上采取了更加谨慎的态度。目前,谷歌仍在不断优化该项目,并尚未公布全面投入使用的AI助手的具体时间表。不过,预计Astra项目的一些功能将在今年晚些时候融入其Gemini助手中。
Astra项目期待什么?
“Astra计划”(全称为先进的视听响应代理)基于Gemini Pro 1.5和其他专用模型的技术进展。该助手使用户能够与周围环境进行互动,理解其所见与所闻,并实时提供准确的回答。
谷歌深度学习公司首席执行官Demis Hassabis表示:“要真正有用,代理人需像人类一样理解和回应复杂多变的世界。它必须接受并记住所见所闻,以把握上下文并采取行动。此外,它应该具备主动性、可教性和个性化,能够无延迟地进行自然对话。”
在一段演示视频中,一个在Pixel智能手机上运行的Astra原型代理人识别物体,描述其组成部分,并解读白板上的代码。该代理人甚至通过摄像头识别社区,并回忆用户放置眼镜的位置。
谷歌Astra项目的实际应用
第二个演示突出了类似功能,例如代理人针对系统架构提出改进建议,并通过智能眼镜显示实时叠加信息。
Hassabis承认,实现类人反应速度的重大工程挑战。他们持续录制视频帧,将视频和语音输入合并以提高回忆效率。“通过利用我们先进的语音模型,我们提升了代理人的语音能力,使其能表达更丰富的语调。这种增强使代理人更好地理解其上下文并迅速回应,”他补充说道。
与OpenAI的GPT-4o不同,后者在统一模型中处理所有输入和输出,平均响应时间为320毫秒。谷歌尚未披露Astra的具体响应时间,但随着开发的推进,延迟有望改善。目前,Astra代理人的情感表达范围与OpenAI的能力相比仍不明朗。
可用性
目前,Astra代表了谷歌朝着全面AI助手迈出的初步努力,旨在帮助用户处理日常个人和职业任务,同时保持上下文意识和记忆。公司尚未明确这一愿景何时能变为实际产品,但已确认能够理解和与现实世界互动的功能将会在Android、iOS和网络平台的Gemini应用中得到整合。
最初,Gemini实时特性将支持与聊天机器人进行双向对话。预计在今年晚些时候的更新中,将加入演示的视觉能力,允许用户通过摄像头与周围环境互动。值得注意的是,用户还可以在对话中打断Gemini,这反映出其功能与OpenAI的ChatGPT相似。
Hassabis总结道:“凭借这样的技术,未来每个人都能想象拥有一个专家级的AI助手,无论是通过智能手机还是智能眼镜。”