OpenAI推出免费GPT-4o模型及桌面用户版ChatGPT

Home AI News CN OpenAI推出免费GPT-4o模型及桌面用户版ChatGPT

今天，在OpenAI的春季更新活动上，首席技术官米拉·穆拉提（Mira Murati）揭晓了GPT-4o（GPT-4 Omni），这是一款革命性的多模态大型语言模型（LLM），将于未来几周内向免费ChatGPT用户推出。此外，新的桌面ChatGPT应用程序将首先在macOS上提供（Windows支持将在稍后推出），用户可以超越网页和移动应用访问该平台。

穆拉提强调：“GPT-4o能够跨越语音、文本和视觉进行推理。” 它能够实时分析用户通过ChatGPT手机应用捕捉的视频，尽管这一功能尚未向公众开放。“这感觉像是魔法，但我们希望揭开神秘面纱，让你亲自体验。”她补充道。

新模型可以实时用声音回答问题，从音频和视频输入中识别用户的情感状态，并根据不同情感调整语音语调，类似于竞争对手Hume提供的功能。在一次演示中，主持人要求基于GPT-4o的ChatGPT讲述一个越来越激烈的故事，它迅速执行了该请求，并在被打断时智能地停止发言，专注倾听后再继续。

OpenAI分享了展示GPT-4o能力的演示视频，称其可以在最短232毫秒内响应音频输入，平均反应时间为320毫秒，接近人类的对话反应时间。OpenAI解释了GPT-4o如何提升用户体验：“在GPT-4o之前，语音模式涉及的延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4），使用三种单独的模型。这意味着主要的智能源——GPT-4——无法充分感知语气、多位说话者或背景声音。”

通过GPT-4o，所有的输入和输出都由单一的端到端神经网络处理，结合文本、视觉和音频，创造出更丰富的互动体验。它甚至可以生成图像的多个视角，并将其转化为3D物体。

然而，OpenAI尚未宣布开源GPT-4o或任何新模型的计划。用户可以通过OpenAI的网站和API探索模型的能力，但无法访问底层的模型参数进行自定义，这也是共同创始人埃隆·马斯克批评的一个方面。

GPT-4o的推出显著提升了免费ChatGPT的体验。以前仅限于文本的GPT-3.5模型，现在免费用户将接入更高级的模型，具备更强的图像和文档分析、网页浏览、数据分析、自定义GPT和记忆存储等功能，可以通过简单的提示保留用户偏好。

在一场现场演示中，演示者展示了基于GPT-4o的ChatGPT实时翻译意大利语和英语的讲述。OpenAI还强调，“ChatGPT现在支持超过50种语言的注册、登录和用户设置。”此外，GPT-4o在理解和讨论共享图像方面表现出色，能够创建一致的AI艺术角色，这是许多现有的AI艺术生成器所无法做到的。

最初，GPT-4o将向付费用户开放，并逐步推广到免费用户：“我们将首先面向ChatGPT Plus和团队用户，然后是企业用户，免费用户将有限制使用条款。”OpenAI表示。

OpenAI在社交媒体上确认，今天API中已经推出了“文本和图像输入”，而语音和视频功能将在未来几周内上线。该API将以半价和双倍速度提供GPT-4o，并为第三方开发者提升调用限制。

OpenAI首席执行官山姆·奧特曼（Sam Altman）反思了公司的发展使命：“我们的目标是创造对社会有益的AI，但现在看来，我们将开发让其他人能够创新的AI，惠及每个人。”

在他的博客中，奥特曼指出：“我们的主要使命是以合理的价格提供强大的AI工具。我为我们通过ChatGPT免费提供全球最佳模型而感到自豪。”新的ChatGPT桌面应用程序将分阶段发布，首先在macOS上线，随后在Windows上推出。穆拉提透露，目前已有超过1亿人使用ChatGPT，创作了超过100万个自定义GPT。

尽管此次活动仅持续26分钟，并且一些现场演示略显尴尬，但即将推出的技术承诺将提升用户体验，提供比以往版本更自然、更强大的界面。

GPT-4o 初步反应：是“实质性AGI”还是人工智能的下一个进化？

人工智能影响之旅：将创意转化为商业真实解决方案