解密 Sora:深入探讨 OpenAI 的使命与洞察

上周四,OpenAI 发布了其新款文本转视频模型 Sora 的演示,能够生成最长达一分钟的视频,同时保持出色的视觉质量,并与用户的提示相符。

你可能已经看到 OpenAI 展示的引人入胜的视频片段,从雪地中蹦跳的金毛幼犬到在繁忙的东京街头漫步的情侣。这些画面可能令你感到惊奇与兴奋,也可能引发了质疑和担忧,这反映了人们对生成性人工智能的多元情感。

我个人对此感到既惊讶又好奇。那么,Sora 的发布意味着什么呢?

在我看来,Sora 体现了 OpenAI 的典型神秘色彩,尤其是在首席执行官山姆·奥特曼经历短暂解雇并重返公司仅三个月后。这种神秘感使每次公告都充满期待。

值得注意的是,OpenAI 采取封闭模型,故意保持其流程的不透明。现在,数以百万计的人正在分析 Sora 的每个细节——琢磨这个模型的工作原理、训练数据、发布时机、潜在应用以及对行业、劳动力、社会和环境的更广泛影响。这一切猜测源于演示,并不会很快商业化,从而加剧了围绕它的热度。

与此同时,Sora 反映了 OpenAI 对其使命的透明态度,即开发“造福全人类”的人工通用智能(AGI)。该组织表示,会在早期分享 Sora 的研究进展,以征求外部反馈,并提供对即将到来的 AI 能力的一瞥。Sora 技术报告的标题“视频生成模型作为世界模拟器”表明,OpenAI 不仅是在发布一个供创意者使用的文本转视频工具,而是在推动 AI 研究朝 AGI 发展,尽管其确切定义仍模糊不清。

这种令人着迷的矛盾——围绕 OpenAI 当前努力的神秘感与其长期愿景的清晰度——往往在公众对其技术的意识和商业采用不断增长时被忽视。

Sora 背后的研究人员深知其目前的影响,并谨慎对待其在创意工作中的使用。OpenAI 科学家阿迪提亚·拉梅什(Aditya Ramesh)曾参与 DALL-E 的开发,并且是 Sora 团队的成员,他对高度真实的视频潜在误用表示担忧。“我们在谨慎部署,确保在面向公众发布之前把所有细节都考虑周全,”他解释道。

然而,拉梅什将 Sora 视为前进的重要一步。“我们很高兴将 AI 推进到能够像人类一样推理世界的能力,”他在社交媒体 X 上评论道。

拉梅什关于视频的思考追溯到 2023 年 1 月,在一次回顾性采访中,他表示他已经在思考视频技术的影响。当我询问他关于 DALL-E 的工作兴趣时,他强调了与视觉相关的智能独特方面。“通过视频,你可以想象一个模型生成理解因果关系的时间序列,”他指出。

在我们的对话中,拉梅什展现了 OpenAI 的双重性:一方面,他乐于让更多人了解 DALL-E 的能力,希望技术能广泛普及;另一方面,作为研究者,他的主要动力是推动 AI 能力的极限,基于 GPT-2 等技术的成功,探索文本到图像生成,以查看 AI 是否能模拟人类的推断能力。

总之,Sora 不仅仅关乎视频。

从短期来看,它可能是一个创意工具,但我们需要意识到 OpenAI 视 Sora 为更大愿景的一部分。无论你是否将 Sora 视为如英伟达的詹姆斯·范(Jim Fan)所建议的“数据驱动的物理引擎”来模拟多样世界,还是批评其为过时想法如“合成分析”的失败尝试,单纯将 Sora 视为一个杰出的视频应用,都会忽略 OpenAI 的双重目标。

OpenAI 确实通过消费产品、企业举措和开发者社区参与实施其生成性 AI 策略。然而,所有这一切都是实现 AGI 愿景的垫脚石。

因此,对于好奇 Sora 目的的人,请记住这一双重性:虽然 OpenAI 当前专注于视频领域,但最终它的目标是一个更宏伟的愿望。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles