Sora：揭示 OpenAI 的使命，充滿引人入勝的洞察

Home AI新聞 Sora：揭示 OpenAI 的使命，充滿引人入勝的洞察

上週四，OpenAI發表了其全新文本生成影片模型Sora的示範，該模型能生成長達一分鐘的影片，並在保持卓越視覺品質的同時，與用戶指示相符。

您可能已經見過OpenAI展示的引人入勝的影片片段，從金毛幼犬在雪地裡嬉戲到情侶悠然漫步於繁忙的東京街道。您可能的反應從驚奇與興奮到懷疑與擔憂，反映出當前對生成性人工智慧的多樣情感。

就我而言，我感到驚奇與好奇並存。真正值得探討的問題是：Sora的發布意味著什麼？

我認為，Sora展現了OpenAI特有的神秘感，這一點在首席執行官Sam Altman短暫被解職後三個月內尤為明顯。這種神秘氣息為每個公告增添了期待感。

值得注意的是，OpenAI運行的是一個封閉模型，故意讓其過程不透明。如今，數百萬人對Sora的每一細節進行分析——包括該模型的工作原理、訓練數據、發布時機、潛在應用以及對行業、勞動力、社會和環境的更廣泛影響。所有這些推測來自一個尚未商業化的示範，進一步加劇了對其的熱潮。

同時，Sora也反映了OpenAI對其使命的透明度，即發展能“造福全人類”的通用人工智慧（AGI）。該組織表示，正在及早分享Sora的研究進展，以徵求OpenAI外部的反饋並提供即將實現的AI能力的預覽。Sora技術報告的標題“視頻生成模型作為世界模擬器”，表明OpenAI不僅僅是釋出一個供創意工作者使用的文本轉影片工具，而是在推動AI研究朝向AGI的發展——儘管其精確定義仍然模糊。

這種有趣的矛盾——OpenAI目前努力的神秘感與其長期願景的清晰度——在公眾對其技術的認知和商業採用增長的同時，經常被忽視。

Sora背後的研究者對其當前影響有清晰的認識，並對其在創意工作中的部署保持謹慎。OpenAI科學家Aditya Ramesh表示，他擔心高真實感視頻的潛在濫用。他解釋道：“我們在部署上非常謹慎，確保在向大眾釋出前已涵蓋所有可能的問題。”

然而，Ramesh將Sora視為重要的一步。“我們對推進AI能以類似人類的方式理解世界感到興奮。”他在X上評論道。

Ramesh對視頻的思考可以追溯到2023年一月的DALL-E開發回顧訪談中。他指出，他已在思考視頻技術的涵義。在我問到他為何願意參與DALL-E的工作時，他強調了與視覺相關的智慧獨特性。他提到：“透過視頻，您可以想像模型生成理解隨時間推移的因果關係的序列。”

在我們的對話中，Ramesh描繪了OpenAI的雙重性：一方面，他渴望讓更多人了解DALL-E的能力，希望其技術能更廣泛可及；另一方面，作為研究者，他的主要動機是推動AI的潛能，建立在像GPT-2等技術的成功之上，並探討文本到影像生成，看看AI是否能夠重現人類般的推斷。

最終，Sora不僅僅是關於視頻。

在短期內，它可以作為一個創意工具，但仍面臨許多挑戰。然而，重要的是要認識到，OpenAI將Sora視為更大願景的一部分。無論您是將Sora視為Nvidia的Jim Fan所說的“數據驅動的物理引擎”來模擬多樣世界，還是批評它作為一個類似過時想法的失敗努力，僅僅將Sora集中於一款卓越的視頻應用，忽視了OpenAI的雙重目標。

OpenAI確實透過消費者產品、企業計劃和開發者社區參與執行生成性AI策略，但這一切都是朝著實現其AGI願景的墊腳石。

因此，對於那些渴望了解Sora目的的人，請記住這一雙重性：雖然OpenAI目前專注於視頻領域，但它最終的目標是追求更宏大的理想。

Hummingbird 推出 AI 驅動的自動化工具，以簡化金融犯罪調查

為什麼人工通用智能超越深度學習的範疇