在推出先进的文本到图像模型一个多月后,Ideogram发布了一次更新,引入了多个新功能,包括基于描述的引用和负提示。这些功能在Ideogram的网络平台上可用,旨在为用户提供更大的图像创作控制权,同时提升输出质量和一致性。这次更新标志着Ideogram在与行业巨头如Midjourney和DALL-E竞争方面的重要进展。
Ideogram的新动态
在2月份推出的1.0版本中,用户获得了一个神奇提示功能,大大增强了输入体验。如今,Ideogram推出了新的“描述”功能,能够从参考图像生成文字说明。用户可以上传一个Ideogram生成的公共图像或自己的图像,AI将生成相应的文本描述,用户可以据此进一步调整创建特定需求的类似图像。
此外,Ideogram还推出了负提示功能,用户可以明确表示他们不希望在最终生成中出现的元素。这一功能帮助用户排除不需要的对象或风格。
用户还可以在生成输出时选择快速、默认或高质量模式。快速模式在大约五秒内生成基础图像,而高质量模式则约需二十秒,专注于逼真的效果。默认模式则在约十二秒内平衡这两者。虽然用户对这些模式的接受度尚待观察,Ideogram鼓励用户先快速生成基础图像,再进行高质量的细化。
提升的逼真度和文本渲染
Ideogram还在改善文本渲染能力上取得了进展,错误率降低了15%。虽然这一变化似乎不大,但公司声称其生成字符和单词的表现优于DALL-E 3 Vivid。虽然尚未公布与Midjourney的直接对比数据,但Ideogram表示,最新版本在提示一致性、图像连贯性和文本渲染质量方面受到人类评审员的偏爱程度提高了30-50%。自去年推出公共测试版以来,Ideogram已吸引了超过七百万创作者。
目前,负提示和速度模式仅限于Ideogram的基本和 plus 计划用户。至于参考图像说明功能的可用性,目前尚不明确,但可能会免费提供,类似于Remix功能。文本和图像一致性的增强对所有用户均可访问。