谷歌即将推出其文本到图像模型Imagen 3的重大更新,承诺将提供更高的细节、更好的自然语言理解和更出色的文本渲染。目前,该模型在ImageFX上已向部分创作者开放私密预览,开发者可以加入等候名单以申请访问。此外,Imagen 3预计将集成到Vertex AI平台中。
谷歌DeepMind高级研究总监道格拉斯·艾克(Douglas Eck)在公司I/O开发者大会上表示:“这是我们迄今为止最先进的图像生成模型。Imagen 3 提供了更高的照片真实感、更丰富的细节,并显著减少了视觉伪影或失真。它以对话方式理解提示,您提供的创意和细节越多,生成的输出就越好。Imagen 3 擅长在较长的提示中融入微妙元素,并且在文本渲染方面达到了我们迄今为止的最佳水平,这是图像生成模型的一项常见挑战。”
此次发布正值谷歌在六个月前将Imagen 2广泛推向Vertex AI之后,去年四月首次推出文本到动态图像功能。在AI图像生成工具竞争日益激烈的市场中,包括OpenAI的DALL-E、Midjourney、Adobe的Firefly、Meta的AI和微软的Designer,谷歌必须保持领先地位。
然而,谷歌在这一领域的旅程并非一帆风顺。今年早些时候,该公司因其AI生成的图像受到批评,一些评论人士认为这些图像“过于政治正确”。其中包括描绘美国开国元首与一位黑人及二战时期的德国士兵与一位黑人和亚洲女性的画面。谷歌对此表示道歉,首席执行官桑达尔·皮查伊在接受彭博社采访时重申了这一立场。
Imagen 3的推出是谷歌I/O大会上多个激动人心更新之一,另外包括全新的视频生成模型Veo的发布。