ChatGPT 现已具备视觉、听觉与语音功能：探索升级版的人工智能体验

Home AI News CN ChatGPT 现已具备视觉、听觉与语音功能：探索升级版的人工智能体验

OpenAI 最近推出了 ChatGPT 的重大更新，增加了语音和图像功能，使得这个 AI 聊天机器人能够“看、听、说”。这一增强提供了一个更为直观的界面，让用户可以以全新的方式与平台互动。

新集成的图像功能让用户能够上传图片，以便获取信息或针对特定图像内容提问。例如，如果你想了解埃菲尔铁塔，只需拍一张照片并用它作为提示。如果在做数学题时遇到困难，可以拍下作业并突出显示难题，让 ChatGPT 帮助你解决。

除了图像提示，ChatGPT 还新增了语音互动功能。用户可以通过语音请求食谱或讲睡前故事，AI 会处理这些请求并进行语音回复，从而提升用户体验。

在接下来的两周内，ChatGPT Plus 和企业用户将陆续获得这些语音和图像功能。语音功能支持 iOS 和 Android 设备，但用户需通过设置菜单进行选择。图像功能将在所有平台上可用。

OpenAI 表示，开发者将在这些功能发布后不久获得访问权限，虽然具体时间尚未确认。

理解图像交互

ChatGPT 的增强图像功能基于其多模态版本的 GPT-3.5 和 GPT-4 模型。用户可以上传一张或多张图像并配以文本提示。如果希望关注图像的特定部分，移动界面提供了简单的绘图工具进行标注。

举例来说，一位骑自行车的人若需要调整座位，可以上传相关图像，并获得关于如何找到快拆杆或螺栓的明确指导。

OpenAI 强调，ChatGPT 的视觉能力旨在帮助处理日常实际任务。公司表示：“当它能看到你所看到的时，它会表现得最好。”

探索语音互动

新语音功能革新了用户与 ChatGPT 的互动方式，使交流变得更加生动。这一能力超越了标准消费级 AI 助手（如 Siri、Alexa 和 Google Home）。新开发的文本转语音模型能够将简单文本生成接近人类的音频，同时专业配音演员赋予了多种声音效果。

此外，OpenAI 还利用其 Whisper 语音识别模型，准确将口语转录成文本。用户可以通过设置中的“新功能选项卡”选择自己喜欢的五种声音，从而个性化体验。

与此同时，OpenAI 正在与流媒体服务 Spotify 合作，提升语音聊天能力，使播客内容能够进行自动翻译。

确保安全与隐私

OpenAI 承诺在这些新功能的推出中保障用户安全。该组织实施了多项安全措施，与第三方合作以识别潜在风险和限制。此外，技术限制已被设立，以减少对图像中个体的分析，确保透明度关于模型的边界。

进行过全面测试以应对多种顾虑，包括防止滥用和维护隐私。OpenAI 认识到 ChatGPT 在非英语语言（特别是使用非罗马字母的语言）方面可能面临的挑战，建议非英语用户在使用该平台时谨慎。

随着这些功能的上线，用户将期待与 ChatGPT 的互动体验更加丰富和生动，彻底改变他们获取信息和使用这一先进 AI 工具的方式。

163.2K

Tars是一个利用人工智能技术的聊天机器人平台，旨在提升客户参与度和优化客户支持体验。

聊天机器人平台 AI聊天机器人

148K

Komo Search：一个注重隐私、无广告的人工智能搜索引擎，让您的在线查询更加安全和清新。

AI搜索 AI搜索引擎

354K

AI旅行规划师：打造个性化旅行体验在数字化时代，AI旅行规划师应运而生，为您提供量身定制的旅行方案。无论您是渴望探索新目的地，还是想要重新体验熟悉的城市，AI助力的旅行规划将根据您的需求和偏好，创造独特的旅行体验。

AI 旅行规划师 AI旅行规划师

1.5M

您最优秀的AI助手

人工智能助手 AI聊天机器人

Find AI tools in YBX