上週四,OpenAI發表了其全新文本生成影片模型Sora的示範,該模型能生成長達一分鐘的影片,並在保持卓越視覺品質的同時,與用戶指示相符。
您可能已經見過OpenAI展示的引人入勝的影片片段,從金毛幼犬在雪地裡嬉戲到情侶悠然漫步於繁忙的東京街道。您可能的反應從驚奇與興奮到懷疑與擔憂,反映出當前對生成性人工智慧的多樣情感。
就我而言,我感到驚奇與好奇並存。真正值得探討的問題是:Sora的發布意味著什麼?
我認為,Sora展現了OpenAI特有的神秘感,這一點在首席執行官Sam Altman短暫被解職後三個月內尤為明顯。這種神秘氣息為每個公告增添了期待感。
值得注意的是,OpenAI運行的是一個封閉模型,故意讓其過程不透明。如今,數百萬人對Sora的每一細節進行分析——包括該模型的工作原理、訓練數據、發布時機、潛在應用以及對行業、勞動力、社會和環境的更廣泛影響。所有這些推測來自一個尚未商業化的示範,進一步加劇了對其的熱潮。
同時,Sora也反映了OpenAI對其使命的透明度,即發展能“造福全人類”的通用人工智慧(AGI)。該組織表示,正在及早分享Sora的研究進展,以徵求OpenAI外部的反饋並提供即將實現的AI能力的預覽。Sora技術報告的標題“視頻生成模型作為世界模擬器”,表明OpenAI不僅僅是釋出一個供創意工作者使用的文本轉影片工具,而是在推動AI研究朝向AGI的發展——儘管其精確定義仍然模糊。
這種有趣的矛盾——OpenAI目前努力的神秘感與其長期願景的清晰度——在公眾對其技術的認知和商業採用增長的同時,經常被忽視。
Sora背後的研究者對其當前影響有清晰的認識,並對其在創意工作中的部署保持謹慎。OpenAI科學家Aditya Ramesh表示,他擔心高真實感視頻的潛在濫用。他解釋道:“我們在部署上非常謹慎,確保在向大眾釋出前已涵蓋所有可能的問題。”
然而,Ramesh將Sora視為重要的一步。“我們對推進AI能以類似人類的方式理解世界感到興奮。”他在X上評論道。
Ramesh對視頻的思考可以追溯到2023年一月的DALL-E開發回顧訪談中。他指出,他已在思考視頻技術的涵義。在我問到他為何願意參與DALL-E的工作時,他強調了與視覺相關的智慧獨特性。他提到:“透過視頻,您可以想像模型生成理解隨時間推移的因果關係的序列。”
在我們的對話中,Ramesh描繪了OpenAI的雙重性:一方面,他渴望讓更多人了解DALL-E的能力,希望其技術能更廣泛可及;另一方面,作為研究者,他的主要動機是推動AI的潛能,建立在像GPT-2等技術的成功之上,並探討文本到影像生成,看看AI是否能夠重現人類般的推斷。
最終,Sora不僅僅是關於視頻。
在短期內,它可以作為一個創意工具,但仍面臨許多挑戰。然而,重要的是要認識到,OpenAI將Sora視為更大願景的一部分。無論您是將Sora視為Nvidia的Jim Fan所說的“數據驅動的物理引擎”來模擬多樣世界,還是批評它作為一個類似過時想法的失敗努力,僅僅將Sora集中於一款卓越的視頻應用,忽視了OpenAI的雙重目標。
OpenAI確實透過消費者產品、企業計劃和開發者社區參與執行生成性AI策略,但這一切都是朝著實現其AGI願景的墊腳石。
因此,對於那些渴望了解Sora目的的人,請記住這一雙重性:雖然OpenAI目前專注於視頻領域,但它最終的目標是追求更宏大的理想。