我们已经观察到AI生成图像的演变,但最近,行业领先公司在这一领域取得了显著进展。本周,Midjourney、Google最新模型和Grok的最新动态成为了关注的焦点。
这些公司以不同的速度和独特的方向在推动AI技术的边界。随着竞争环境的持续开放,令人惊讶的是我们所取得的进展是多么显著。
Midjourney推出现代化网页编辑器
Midjourney最近推出了一款新的网页编辑器,将各种图像处理工具整合到一个用户友好的界面中。用户之前需要在多个菜单中切换,才能找到重新构图、重绘(修改现有图像)、平移、画布延伸和缩放等功能。新的简化界面大幅提升了编辑体验,并标志着其从Discord操作模式的转变。
Midjourney首席执行官大卫·霍尔茨表示,推出这款编辑器的目标是让AI生成图像的编辑过程“更加顺畅”。随着平台继续从Discord过渡到网页应用,Midjourney还将同步“日常主题”、“提示创作”和“一般讨论”等频道的活动于Discord和网页房间。此外,新增加的数字画笔选择工具取代了传统选择工具,使得创建超过十幅图像的用户在编辑过程中的流畅性得以提升。创作者社区对这一改进的早期反馈非常积极。本次更新是在Midjourney 6.1发布之后进行的,该版本显著提高了图像质量和一致性(包括手部细节的更佳准确性)以及处理速度。
Grok-2的有争议发布
在Midjourney更新后的两天,埃隆·马斯克的xAI初创公司推出了Grok-2,为AI图像生成带来了又一个重要进展。Grok-2由黑森林实验室的Flux.1模型驱动,以其卓越的图像质量和可访问性而备受关注。
然而,Grok-2的使用指导方针引发了担忧。与其他AI生成器不同,它似乎对知识产权、暴力和露骨内容几乎没有政策限制。这种缺乏明确界限的情况引发了争议,用户在创造出令人不安和非常规的图像,令人联想到AI生成视觉的早期阶段。马斯克将Grok-2形容为“世界上最有趣的AI”,暗示这可能是基于故意选择的宽松政策,从而影响AI技术的未来发展方向。
Google推出Imagen 3以竞争
最后,谷歌发布了其Imagen 3 AI模型,称其为迄今为止“质量最高的文本转图像模型”。该模型已向美国用户开放,承诺提供更细致的图像、改进的光照效果,以及比前版本更少的干扰元素。该模型在渲染文本方面表现尤为出色,并提供多种版本,以满足不同需求,从快速草图到高清图像。目前,Imagen 3通过Google的AI实验厨房作为ImageFX的一部分可用,但仍处于封闭测试阶段,用户需要加入等待列表才能参与。