谷歌Imagen 3:Vertex AI上线增强版文本生成图像基础模型

谷歌的先进文本到图像基础模型 Imagen 3 即将在 Vertex AI 平台上线。这个下一代 AI 工具将为部分客户提供预览服务,帮助开发者更快速地生成图像、提升对提示的理解能力、呈现更逼真的人物形象,并改善文本渲染效果,相比于之前的版本都有显著提升。

Imagen 3 于今年5月在谷歌I/O大会上首次介绍,最初在 ImageFX 提供给选定创作者进行私人预览。谷歌在近期的公告中确认,这一强大的 AI 模型很快将在 Vertex AI 平台上开放。

谷歌 DeepMind 的高级研究总监道格拉斯·埃克(Douglas Eck)强调了其强大的功能,表示:“这是我们迄今为止功能最强大的图像生成模型。Imagen 3 拥有更高的真实感和更丰富的细节,能够最大限度地减少视觉伪影。它能够理解自然、创意方式下的提示,详细的指示将获得最佳效果。此外,它在处理更长提示中的细微细节和改善文本渲染方面也表现出色,这是早期图像生成模型面临的长期挑战。”

随着 Imagen 3 向 Vertex AI 的过渡,它引入了多语言支持、强大的安全功能,例如谷歌 DeepMind 的 SynthID 数字水印,以及对多种纵横比的支持。

图库巨头 Shutterstock 已经整合了这一模型。Shutterstock 数据服务副总裁贾斯廷·希扎(Justin Hiza)表示:“自从将 Imagen 引入我们的 AI 图像生成器以来,用户已创作出数百万幅图像。我们对 Imagen 3 所提供的改进感到兴奋,它使用户能够更快地实现自己的创意,而不影响质量。这一增强进一步巩固了 Shutterstock 对道德采购的 AI 图像生成器的承诺,确保通过谷歌云对生成 AI 提供的保障和保护。”

尽管谷歌持续改进 Imagen,但尚未透露其 Gemini AI 在因批评不准确性而暂停图像生成后何时会恢复功能。在最近的一次新闻发布会上,谷歌云首席执行官托马斯·库里安(Thomas Kurian)澄清了这两种模型之间的区别:“Gemini 是一种多模态模型,旨在处理包括图像、视频和音频在内的多种输入类型,能够在这些不同形式间进行推理。相对而言,Imagen 是一种扩散模型,专注于生成高保真度的文本到图像输出。这两者有着不同的用途。”

关于 Gemini 图像功能重新启用的时间表仍未得到答复。

Most people like

Find AI tools in YBX