谷歌推出Astra项目：旨在理解全球动态并与GPT-4竞争的AI代理

Home AI News CN 谷歌推出Astra项目：旨在理解全球动态并与GPT-4竞争的AI代理

今日，在位于山景城的年度I/O开发者大会上，谷歌发布了一系列以人工智能为中心的公告，特别介绍了“Astra计划”——一个旨在开发未来通用AI助手的雄心勃勃的项目。

在大会上，初版代理人进行了展示。该项目的目标是创建一个多模态人工智能助手，能够感知和理解其环境，实时回应，以协助处理日常任务和咨询。这一理念与最近OpenAI推出的 GPT-4o驱动的ChatGPT紧密相关。

你准备好迎接AI助手了吗？

随着OpenAI计划在未来几周内向ChatGPT Plus订阅者推出GPT-4o，谷歌则在Astra项目上采取了更加谨慎的态度。目前，谷歌仍在不断优化该项目，并尚未公布全面投入使用的AI助手的具体时间表。不过，预计Astra项目的一些功能将在今年晚些时候融入其Gemini助手中。

Astra项目期待什么？

“Astra计划”（全称为先进的视听响应代理）基于Gemini Pro 1.5和其他专用模型的技术进展。该助手使用户能够与周围环境进行互动，理解其所见与所闻，并实时提供准确的回答。

谷歌深度学习公司首席执行官Demis Hassabis表示：“要真正有用，代理人需像人类一样理解和回应复杂多变的世界。它必须接受并记住所见所闻，以把握上下文并采取行动。此外，它应该具备主动性、可教性和个性化，能够无延迟地进行自然对话。”

在一段演示视频中，一个在Pixel智能手机上运行的Astra原型代理人识别物体，描述其组成部分，并解读白板上的代码。该代理人甚至通过摄像头识别社区，并回忆用户放置眼镜的位置。

谷歌Astra项目的实际应用

第二个演示突出了类似功能，例如代理人针对系统架构提出改进建议，并通过智能眼镜显示实时叠加信息。

Hassabis承认，实现类人反应速度的重大工程挑战。他们持续录制视频帧，将视频和语音输入合并以提高回忆效率。“通过利用我们先进的语音模型，我们提升了代理人的语音能力，使其能表达更丰富的语调。这种增强使代理人更好地理解其上下文并迅速回应，”他补充说道。

与OpenAI的GPT-4o不同，后者在统一模型中处理所有输入和输出，平均响应时间为320毫秒。谷歌尚未披露Astra的具体响应时间，但随着开发的推进，延迟有望改善。目前，Astra代理人的情感表达范围与OpenAI的能力相比仍不明朗。

可用性

目前，Astra代表了谷歌朝着全面AI助手迈出的初步努力，旨在帮助用户处理日常个人和职业任务，同时保持上下文意识和记忆。公司尚未明确这一愿景何时能变为实际产品，但已确认能够理解和与现实世界互动的功能将会在Android、iOS和网络平台的Gemini应用中得到整合。

最初，Gemini实时特性将支持与聊天机器人进行双向对话。预计在今年晚些时候的更新中，将加入演示的视觉能力，允许用户通过摄像头与周围环境互动。值得注意的是，用户还可以在对话中打断Gemini，这反映出其功能与OpenAI的ChatGPT相似。

Hassabis总结道：“凭借这样的技术，未来每个人都能想象拥有一个专家级的AI助手，无论是通过智能手机还是智能眼镜。”

30.2K

您的隐私至上，人工智能职业导师为您提供专业指导。

职业教练生活助手

91.2K

从文本生成AI视频的过程逐渐变得简单而高效。利用最新的AI技术，用户只需输入文本，系统便能自动生成高质量的视频内容。这一创新不仅节省了时间，还为创作者提供了无限的创作可能性。无论是用于教育、宣传还是娱乐，AI视频生成技术都在不断重塑我们的观看体验和内容创作方式。

AI生成的视频文字转视频工具

73.4K

DiffusionBee是一个免费且易于使用的离线应用程序，专为生成和编辑AI艺术而设计。通过其强大的功能，用户可以轻松创造独特的艺术作品，享受无须联网的艺术创作体验。

人工智能艺术 AI艺术生成器

76.1M

一个在线文本重写工具，旨在帮助用户高效地改写和优化内容，提高可读性和独特性。无论是撰写文章、强化学术论文，还是完善网站内容，该工具都能提供智能的改写建议，让您的文字焕发新生。

文本重写人工智能重写器

Find AI tools in YBX