OpenAI总裁揭晓GPT-4o首幅创作图像

OpenAI的总裁格雷格·布洛克曼(Greg Brockman)最近在他的X账号上分享了公司新推出的GPT-4o模型生成的第一张公开图片。这张图片展示了一位穿着印有OpenAI标志的黑色T恤的人正在黑板上书写,内容是:“多模态之间的转化。假设我们用一个大型自回归变压器直接建模P(文本、像素、声音)。这样做的利弊是什么?”

GPT-4o模型于本周一发布,相比之前的GPT-4系列(包括GPT-4、GPT-4 Vision和GPT-4 Turbo),它提供了更快的处理速度、更低的成本和更好的信息保留能力,能够同时处理音频和视觉等多种输入信息。

OpenAI通过使用多媒体令牌训练GPT-4o,消除了将音频和视觉数据先转换为文本的需要。这使得模型能够直接分析和理解这些媒体格式,从而实现更流畅、更高效的操作,相较于依赖多个相互关联模型的早期GPT-4版本,进步显著。

将新生成的图片与2023年9月发布的OpenAI DALL-E 3生成的图像进行对比,可以明显看出GPT-4o模型在质量、照片真实感和文本准确性方面的显著提升。

目前,GPT-4o的本地图像生成能力尚未向公众开放。如布洛克曼在帖子中所述,“团队正在努力将这些能力带给世界。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles