字節跳動(ByteDance)旗下的AI研究人員近日推出了一款名為ImageDream的創新AI模型,旨在從圖像中創建驚人的3D模型。該尖端模型能夠從任何角度生成物體的多視角擴散,僅需一張圖片作為輸入。舉例來說,若輸入一張佩戴黑色海盜帽的鬥牛犬照片,ImageDream將生成該狗狗的多個視角,並根據這些視角打造生動的3D模型。
開發團隊強調,使用圖像生成3D模型為用戶提供了一種更直觀、簡單的方式來表達創意,特別是對於那些難以用文字表達想法的人來說更具幫助。
雖然AI驅動的3D生成模型並不新鮮,ImageDream卻在多方面脫穎而出。團隊坦言汲取了包括去年十月發布的Google DreamFusion和OpenAI的Point-E(基於文本輸入生成3D雕塑)等知名模型的靈感。早在ImageDream之前,字節跳動還推出了一款名為MVDream的3D生成模型,於八月問世。該擴散模型專注於從文本描述生成高品質的3D圖像,並與加利福尼亞大學聖地亞哥分校合作開發。MVDream允許調整,以適應個性化的3D生成,並利用DreamBooth3D等工具。
ImageDream的獨特之處在於能夠直接從圖像創建具有精確幾何形狀的3D物體,這提高了與僅使用文本模型(如MVDream)的圖像-文本對齊潛力。研究論文指出:“ImageDream在幾何形狀和紋理質量方面超越了現有的最新一次性單圖像3D模型生成器,例如Magic123。”
儘管ImageDream的能力令人印象深刻,仍然存在一些限制。它在渲染全身角色的細緻面部特徵時可能會遇到挑戰,顯示出在這些領域需改進的空間。
AI在3D生成中的應用是一個不斷擴展的前沿領域,像ImageDream這樣的模型在虛擬現實(VR)、增強現實(AR)環境以及視頻遊戲中的資產創建上具有潛力。通過ImageDream生成的物體示例包括武士刀、AK47以及頭戴帽子的皮卡丘這些受人喜愛的角色。
如果您想探索ImageDream創造的各種3D作品,歡迎訪問字節跳動的專項頁面。不過,請注意目前該頁面上有關ImageDream代碼的訪問問題,相關詢問已提出以獲取進一步澄清。