今天,在OpenAI的春季更新活动上,首席技术官米拉·穆拉提(Mira Murati)揭晓了GPT-4o(GPT-4 Omni),这是一款革命性的多模态大型语言模型(LLM),将于未来几周内向免费ChatGPT用户推出。此外,新的桌面ChatGPT应用程序将首先在macOS上提供(Windows支持将在稍后推出),用户可以超越网页和移动应用访问该平台。
穆拉提强调:“GPT-4o能够跨越语音、文本和视觉进行推理。” 它能够实时分析用户通过ChatGPT手机应用捕捉的视频,尽管这一功能尚未向公众开放。“这感觉像是魔法,但我们希望揭开神秘面纱,让你亲自体验。”她补充道。
新模型可以实时用声音回答问题,从音频和视频输入中识别用户的情感状态,并根据不同情感调整语音语调,类似于竞争对手Hume提供的功能。在一次演示中,主持人要求基于GPT-4o的ChatGPT讲述一个越来越激烈的故事,它迅速执行了该请求,并在被打断时智能地停止发言,专注倾听后再继续。
OpenAI分享了展示GPT-4o能力的演示视频,称其可以在最短232毫秒内响应音频输入,平均反应时间为320毫秒,接近人类的对话反应时间。OpenAI解释了GPT-4o如何提升用户体验:“在GPT-4o之前,语音模式涉及的延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4),使用三种单独的模型。这意味着主要的智能源——GPT-4——无法充分感知语气、多位说话者或背景声音。”
通过GPT-4o,所有的输入和输出都由单一的端到端神经网络处理,结合文本、视觉和音频,创造出更丰富的互动体验。它甚至可以生成图像的多个视角,并将其转化为3D物体。
然而,OpenAI尚未宣布开源GPT-4o或任何新模型的计划。用户可以通过OpenAI的网站和API探索模型的能力,但无法访问底层的模型参数进行自定义,这也是共同创始人埃隆·马斯克批评的一个方面。
GPT-4o的推出显著提升了免费ChatGPT的体验。以前仅限于文本的GPT-3.5模型,现在免费用户将接入更高级的模型,具备更强的图像和文档分析、网页浏览、数据分析、自定义GPT和记忆存储等功能,可以通过简单的提示保留用户偏好。
在一场现场演示中,演示者展示了基于GPT-4o的ChatGPT实时翻译意大利语和英语的讲述。OpenAI还强调,“ChatGPT现在支持超过50种语言的注册、登录和用户设置。”此外,GPT-4o在理解和讨论共享图像方面表现出色,能够创建一致的AI艺术角色,这是许多现有的AI艺术生成器所无法做到的。
最初,GPT-4o将向付费用户开放,并逐步推广到免费用户:“我们将首先面向ChatGPT Plus和团队用户,然后是企业用户,免费用户将有限制使用条款。”OpenAI表示。
OpenAI在社交媒体上确认,今天API中已经推出了“文本和图像输入”,而语音和视频功能将在未来几周内上线。该API将以半价和双倍速度提供GPT-4o,并为第三方开发者提升调用限制。
OpenAI首席执行官山姆·奧特曼(Sam Altman)反思了公司的发展使命:“我们的目标是创造对社会有益的AI,但现在看来,我们将开发让其他人能够创新的AI,惠及每个人。”
在他的博客中,奥特曼指出:“我们的主要使命是以合理的价格提供强大的AI工具。我为我们通过ChatGPT免费提供全球最佳模型而感到自豪。”新的ChatGPT桌面应用程序将分阶段发布,首先在macOS上线,随后在Windows上推出。穆拉提透露,目前已有超过1亿人使用ChatGPT,创作了超过100万个自定义GPT。
尽管此次活动仅持续26分钟,并且一些现场演示略显尴尬,但即将推出的技术承诺将提升用户体验,提供比以往版本更自然、更强大的界面。