解密 Sora：深入探讨 OpenAI 的使命与洞察

Home AI News CN 解密 Sora：深入探讨 OpenAI 的使命与洞察

上周四，OpenAI 发布了其新款文本转视频模型 Sora 的演示，能够生成最长达一分钟的视频，同时保持出色的视觉质量，并与用户的提示相符。

你可能已经看到 OpenAI 展示的引人入胜的视频片段，从雪地中蹦跳的金毛幼犬到在繁忙的东京街头漫步的情侣。这些画面可能令你感到惊奇与兴奋，也可能引发了质疑和担忧，这反映了人们对生成性人工智能的多元情感。

我个人对此感到既惊讶又好奇。那么，Sora 的发布意味着什么呢？

在我看来，Sora 体现了 OpenAI 的典型神秘色彩，尤其是在首席执行官山姆·奥特曼经历短暂解雇并重返公司仅三个月后。这种神秘感使每次公告都充满期待。

值得注意的是，OpenAI 采取封闭模型，故意保持其流程的不透明。现在，数以百万计的人正在分析 Sora 的每个细节——琢磨这个模型的工作原理、训练数据、发布时机、潜在应用以及对行业、劳动力、社会和环境的更广泛影响。这一切猜测源于演示，并不会很快商业化，从而加剧了围绕它的热度。

与此同时，Sora 反映了 OpenAI 对其使命的透明态度，即开发“造福全人类”的人工通用智能（AGI）。该组织表示，会在早期分享 Sora 的研究进展，以征求外部反馈，并提供对即将到来的 AI 能力的一瞥。Sora 技术报告的标题“视频生成模型作为世界模拟器”表明，OpenAI 不仅是在发布一个供创意者使用的文本转视频工具，而是在推动 AI 研究朝 AGI 发展，尽管其确切定义仍模糊不清。

这种令人着迷的矛盾——围绕 OpenAI 当前努力的神秘感与其长期愿景的清晰度——往往在公众对其技术的意识和商业采用不断增长时被忽视。

Sora 背后的研究人员深知其目前的影响，并谨慎对待其在创意工作中的使用。OpenAI 科学家阿迪提亚·拉梅什（Aditya Ramesh）曾参与 DALL-E 的开发，并且是 Sora 团队的成员，他对高度真实的视频潜在误用表示担忧。“我们在谨慎部署，确保在面向公众发布之前把所有细节都考虑周全，”他解释道。

然而，拉梅什将 Sora 视为前进的重要一步。“我们很高兴将 AI 推进到能够像人类一样推理世界的能力，”他在社交媒体 X 上评论道。

拉梅什关于视频的思考追溯到 2023 年 1 月，在一次回顾性采访中，他表示他已经在思考视频技术的影响。当我询问他关于 DALL-E 的工作兴趣时，他强调了与视觉相关的智能独特方面。“通过视频，你可以想象一个模型生成理解因果关系的时间序列，”他指出。

在我们的对话中，拉梅什展现了 OpenAI 的双重性：一方面，他乐于让更多人了解 DALL-E 的能力，希望技术能广泛普及；另一方面，作为研究者，他的主要动力是推动 AI 能力的极限，基于 GPT-2 等技术的成功，探索文本到图像生成，以查看 AI 是否能模拟人类的推断能力。

总之，Sora 不仅仅关乎视频。

从短期来看，它可能是一个创意工具，但我们需要意识到 OpenAI 视 Sora 为更大愿景的一部分。无论你是否将 Sora 视为如英伟达的詹姆斯·范（Jim Fan）所建议的“数据驱动的物理引擎”来模拟多样世界，还是批评其为过时想法如“合成分析”的失败尝试，单纯将 Sora 视为一个杰出的视频应用，都会忽略 OpenAI 的双重目标。

OpenAI 确实通过消费产品、企业举措和开发者社区参与实施其生成性 AI 策略。然而，所有这一切都是实现 AGI 愿景的垫脚石。

因此，对于好奇 Sora 目的的人，请记住这一双重性：虽然 OpenAI 当前专注于视频领域，但最终它的目标是一个更宏伟的愿望。

释放你的创意：ElevenLabs即将推出AI驱动音效

为什么人工通用智能超越深度学习的范畴