谷歌Imagen 3：Vertex AI上线增强版文本生成图像基础模型

Home AI News CN 谷歌Imagen 3：Vertex AI上线增强版文本生成图像基础模型

谷歌的先进文本到图像基础模型 Imagen 3 即将在 Vertex AI 平台上线。这个下一代 AI 工具将为部分客户提供预览服务，帮助开发者更快速地生成图像、提升对提示的理解能力、呈现更逼真的人物形象，并改善文本渲染效果，相比于之前的版本都有显著提升。

Imagen 3 于今年5月在谷歌I/O大会上首次介绍，最初在 ImageFX 提供给选定创作者进行私人预览。谷歌在近期的公告中确认，这一强大的 AI 模型很快将在 Vertex AI 平台上开放。

谷歌 DeepMind 的高级研究总监道格拉斯·埃克（Douglas Eck）强调了其强大的功能，表示：“这是我们迄今为止功能最强大的图像生成模型。Imagen 3 拥有更高的真实感和更丰富的细节，能够最大限度地减少视觉伪影。它能够理解自然、创意方式下的提示，详细的指示将获得最佳效果。此外，它在处理更长提示中的细微细节和改善文本渲染方面也表现出色，这是早期图像生成模型面临的长期挑战。”

随着 Imagen 3 向 Vertex AI 的过渡，它引入了多语言支持、强大的安全功能，例如谷歌 DeepMind 的 SynthID 数字水印，以及对多种纵横比的支持。

图库巨头 Shutterstock 已经整合了这一模型。Shutterstock 数据服务副总裁贾斯廷·希扎（Justin Hiza）表示：“自从将 Imagen 引入我们的 AI 图像生成器以来，用户已创作出数百万幅图像。我们对 Imagen 3 所提供的改进感到兴奋，它使用户能够更快地实现自己的创意，而不影响质量。这一增强进一步巩固了 Shutterstock 对道德采购的 AI 图像生成器的承诺，确保通过谷歌云对生成 AI 提供的保障和保护。”

尽管谷歌持续改进 Imagen，但尚未透露其 Gemini AI 在因批评不准确性而暂停图像生成后何时会恢复功能。在最近的一次新闻发布会上，谷歌云首席执行官托马斯·库里安（Thomas Kurian）澄清了这两种模型之间的区别：“Gemini 是一种多模态模型，旨在处理包括图像、视频和音频在内的多种输入类型，能够在这些不同形式间进行推理。相对而言，Imagen 是一种扩散模型，专注于生成高保真度的文本到图像输出。这两者有着不同的用途。”

关于 Gemini 图像功能重新启用的时间表仍未得到答复。

谷歌发布Gemini 1.5 Flash和Pro版本，公众使用可达200万令牌限制

Zip的人工智能采购平台实现44亿美元节省，革新企业支出策略