字节跳动的AI研究团队最近推出了一款创新的AI模型——ImageDream,旨在通过单张图像生成令人惊叹的3D模型。这个先进的模型能够从多个角度展现物体的多视角扩散。例如,输入一张戴着黑色海盗帽的斗牛犬照片,ImageDream将提供多种角度的视图,并基于这些视角构建生动的3D模型。
开发团队强调,利用图像生成3D模型为用户提供了一种更直观、简便的创意表达方式,特别适合那些在文字表达上困难的用户。
尽管基于AI的3D生成技术已经存在,ImageDream仍在众多模型中脱颖而出。团队坦诚,他们受到了谷歌的DreamFusion(去年十月发布)和OpenAI的Point-E(根据文本生成3D雕塑)等著名模型的启发。值得一提的是,在ImageDream推出之前,字节跳动就已经发布了一款名为MVDream的3D生成模型。MVDream专注于从文本描述生成高质量的3D效果图,并与加州大学圣地亚哥分校合作开发,允许用户通过DreamBooth3D等工具进行个性化调整。
ImageDream的独特之处在于,它能够直接从图像中创建几何精确的3D物体,相比仅依赖文本的模型(如MVDream),它在图像与文本的对齐能力上有显著提升。研究论文指出:“ImageDream在几何和纹理质量方面超越了现有的顶尖无监督单图像3D生成器,如Magic123。”
尽管功能强大,ImageDream仍有改进空间。例如,它在渲染全身像的面部细节时可能会遇到挑战。
AI在3D生成领域的应用前景广阔,像ImageDream这样的模型为创建虚拟现实(VR)和增强现实(AR)环境中的资源及视频游戏资产提供了巨大潜力。ImageDream生成的物体示例包括武士刀、AK47以及佩戴帽子的皮卡丘等受欢迎角色。
如欲了解更多关于ImageDream生成的3D创作,请访问字节跳动的专属项目页面。请注意,目前对ImageDream的代码访问正遇到一些问题,团队正在积极处理相关查询。