Meta 在生成式人工智能领域取得了显著进展,推出了升级版的图像生成基础模型 Emu(表现媒体宇宙)。这个强大的模型现在不仅可以根据文本生成视频,还具备精确的图像编辑能力。
Emu 的技术在九月份的 Meta Connect 事件中首次亮相,为 Meta 社交媒体平台上众多动态生成式 AI 体验奠定了基础。例如,它增强了 Instagram 的图像编辑工具,使用户能够轻松地更改照片的视觉风格或背景。Emu 已与 Meta AI 整合,这是一个类似于 OpenAI 的 ChatGPT 的用户助手平台。
新推出的 Emu Video 模型以其独特的双重能力而引人注目,它能够根据自然语言文本、图像或二者的结合生成视频。与依赖五个扩散模型的旧模型 Make-a-Video 不同,Emu Video使用更加简化的两步流程:首先,它根据文本提示生成图像,然后再结合文本和图像提示创建视频。这种简化的方法使视频生成模型的训练更加高效。在用户研究中,Emu Video 表现优于 Make-a-Video,有 96% 的参与者更喜欢其质量,85% 的人认为它与文本提示更贴切。此外,Emu Video 能够根据用户上传的图像和特定文本提示使图像生动起来。
另一个令人兴奋的更新是 Emu Edit 的推出,它通过自然语言指令增强了图像编辑功能。用户可以上传图像并指定希望进行的调整。例如,他们可以请求移除某个元素(如贵宾犬),并用另一物件(如红色长椅)替换——仅需输入请求即可。尽管市场上已有使用 AI 的图像修改工具,例如基于 Stable Diffusion 的 ClipDrop 和 Runway 的图像编辑功能,但 Meta 的研究人员指出,现有方法往往导致过度修改或编辑效果不佳。
Meta 在一篇博客中强调,目标不仅是创建“可信”的图像,更应聚焦于准确修改用户特定请求相关的像素。团队发现,将计算机视觉任务作为图像生成模型的指令能够在编辑过程中提供无与伦比的控制。
为了开发 Emu Edit,Meta 采用了一个包含 1000 万个合成图像的全面数据集,每个数据集由输入图像、详细任务描述和目标输出图像组成。这使得模型在保持原图像中不相关元素完整性的同时,能够紧密遵循用户指令。
对于想要探索 Emu Edit 功能的用户,可以在 Hugging Face 上查看生成的图像。此外,Meta 还推出了 Emu Edit 测试集,这是一个新的基准,用于进一步测试图像编辑模型。该测试集包括七种不同的图像编辑任务,如背景更改和对象移除,为精确图像编辑技术的进步铺平了道路。