OpenAI 最近推出了 ChatGPT 的重大更新,增加了语音和图像功能,使得这个 AI 聊天机器人能够“看、听、说”。这一增强提供了一个更为直观的界面,让用户可以以全新的方式与平台互动。
新集成的图像功能让用户能够上传图片,以便获取信息或针对特定图像内容提问。例如,如果你想了解埃菲尔铁塔,只需拍一张照片并用它作为提示。如果在做数学题时遇到困难,可以拍下作业并突出显示难题,让 ChatGPT 帮助你解决。
除了图像提示,ChatGPT 还新增了语音互动功能。用户可以通过语音请求食谱或讲睡前故事,AI 会处理这些请求并进行语音回复,从而提升用户体验。
在接下来的两周内,ChatGPT Plus 和企业用户将陆续获得这些语音和图像功能。语音功能支持 iOS 和 Android 设备,但用户需通过设置菜单进行选择。图像功能将在所有平台上可用。
OpenAI 表示,开发者将在这些功能发布后不久获得访问权限,虽然具体时间尚未确认。
理解图像交互
ChatGPT 的增强图像功能基于其多模态版本的 GPT-3.5 和 GPT-4 模型。用户可以上传一张或多张图像并配以文本提示。如果希望关注图像的特定部分,移动界面提供了简单的绘图工具进行标注。
举例来说,一位骑自行车的人若需要调整座位,可以上传相关图像,并获得关于如何找到快拆杆或螺栓的明确指导。
OpenAI 强调,ChatGPT 的视觉能力旨在帮助处理日常实际任务。公司表示:“当它能看到你所看到的时,它会表现得最好。”
探索语音互动
新语音功能革新了用户与 ChatGPT 的互动方式,使交流变得更加生动。这一能力超越了标准消费级 AI 助手(如 Siri、Alexa 和 Google Home)。新开发的文本转语音模型能够将简单文本生成接近人类的音频,同时专业配音演员赋予了多种声音效果。
此外,OpenAI 还利用其 Whisper 语音识别模型,准确将口语转录成文本。用户可以通过设置中的“新功能选项卡”选择自己喜欢的五种声音,从而个性化体验。
与此同时,OpenAI 正在与流媒体服务 Spotify 合作,提升语音聊天能力,使播客内容能够进行自动翻译。
确保安全与隐私
OpenAI 承诺在这些新功能的推出中保障用户安全。该组织实施了多项安全措施,与第三方合作以识别潜在风险和限制。此外,技术限制已被设立,以减少对图像中个体的分析,确保透明度关于模型的边界。
进行过全面测试以应对多种顾虑,包括防止滥用和维护隐私。OpenAI 认识到 ChatGPT 在非英语语言(特别是使用非罗马字母的语言)方面可能面临的挑战,建议非英语用户在使用该平台时谨慎。
随着这些功能的上线,用户将期待与 ChatGPT 的互动体验更加丰富和生动,彻底改变他们获取信息和使用这一先进 AI 工具的方式。