ChatGPT 现已具备视觉、听觉与语音功能：探索升级版的人工智能体验

Home AI News CN ChatGPT 现已具备视觉、听觉与语音功能：探索升级版的人工智能体验

OpenAI 最近推出了 ChatGPT 的重大更新，增加了语音和图像功能，使得这个 AI 聊天机器人能够“看、听、说”。这一增强提供了一个更为直观的界面，让用户可以以全新的方式与平台互动。

新集成的图像功能让用户能够上传图片，以便获取信息或针对特定图像内容提问。例如，如果你想了解埃菲尔铁塔，只需拍一张照片并用它作为提示。如果在做数学题时遇到困难，可以拍下作业并突出显示难题，让 ChatGPT 帮助你解决。

除了图像提示，ChatGPT 还新增了语音互动功能。用户可以通过语音请求食谱或讲睡前故事，AI 会处理这些请求并进行语音回复，从而提升用户体验。

在接下来的两周内，ChatGPT Plus 和企业用户将陆续获得这些语音和图像功能。语音功能支持 iOS 和 Android 设备，但用户需通过设置菜单进行选择。图像功能将在所有平台上可用。

OpenAI 表示，开发者将在这些功能发布后不久获得访问权限，虽然具体时间尚未确认。

理解图像交互

ChatGPT 的增强图像功能基于其多模态版本的 GPT-3.5 和 GPT-4 模型。用户可以上传一张或多张图像并配以文本提示。如果希望关注图像的特定部分，移动界面提供了简单的绘图工具进行标注。

举例来说，一位骑自行车的人若需要调整座位，可以上传相关图像，并获得关于如何找到快拆杆或螺栓的明确指导。

OpenAI 强调，ChatGPT 的视觉能力旨在帮助处理日常实际任务。公司表示：“当它能看到你所看到的时，它会表现得最好。”

探索语音互动

新语音功能革新了用户与 ChatGPT 的互动方式，使交流变得更加生动。这一能力超越了标准消费级 AI 助手（如 Siri、Alexa 和 Google Home）。新开发的文本转语音模型能够将简单文本生成接近人类的音频，同时专业配音演员赋予了多种声音效果。

此外，OpenAI 还利用其 Whisper 语音识别模型，准确将口语转录成文本。用户可以通过设置中的“新功能选项卡”选择自己喜欢的五种声音，从而个性化体验。

与此同时，OpenAI 正在与流媒体服务 Spotify 合作，提升语音聊天能力，使播客内容能够进行自动翻译。

确保安全与隐私

OpenAI 承诺在这些新功能的推出中保障用户安全。该组织实施了多项安全措施，与第三方合作以识别潜在风险和限制。此外，技术限制已被设立，以减少对图像中个体的分析，确保透明度关于模型的边界。

进行过全面测试以应对多种顾虑，包括防止滥用和维护隐私。OpenAI 认识到 ChatGPT 在非英语语言（特别是使用非罗马字母的语言）方面可能面临的挑战，建议非英语用户在使用该平台时谨慎。

随着这些功能的上线，用户将期待与 ChatGPT 的互动体验更加丰富和生动，彻底改变他们获取信息和使用这一先进 AI 工具的方式。

93.1K

Forethought通过自动化客户支持，不仅降低了运营成本，还显著提升了服务质量。这一创新解决方案使企业能够更高效地处理客户需求，带来更好的用户体验。

生成式人工智能 AI客户服务助手

98.9K

专业级人工智能照片编辑器，助力提升照片质量，轻松实现专业级别的照片增强效果。

AI照片编辑器 AI图像增强器

68.6K

利用语言模型实现代码执行与任务自动化。

开源 AI开发工具

21.1K

打造您的理想虚拟伴侣。

人工智能女友 NSFW

Find AI tools in YBX