先週の木曜日、OpenAIは新しいテキストから動画を生成するモデル「Sora」のデモを発表しました。このモデルは、最大1分間の動画を生成しながら、優れた視覚品質を保ち、ユーザーの指示に応じることができます。
OpenAIが披露した魅力的な映像、雪から出てくるゴールデンレトリーバーの子犬や、賑やかな東京の街を歩くカップルの映像に心を奪われた方も多いのではないでしょうか。その反応は驚きや興奮から懐疑的な気持ち、果ては不安に至るまで多様だったことでしょう。これは、今日の生成AIに対するさまざまな感情を映し出しています。
私自身は驚きと興味の入り混じった感情を抱きました。そこで浮かぶ疑問は、Soraのリリースが何を意味するのかということです。
私の見解では、SoraはOpenAIの代表的な神秘性を体現しています。特に、CEOSam Altmanがわずか3ヶ月前に短期間解雇され、その後復帰した直後に発表されたことが際立っています。この神秘的な雰囲気は、各発表への期待感を高めます。
OpenAIは、意図的にプロセスを不透明に保ちながら、クローズドモデルで運営されています。現在、数百万の人々がSoraに関するあらゆる詳細を分析し、モデルの機能やトレーニングデータ、リリースのタイミング、潜在的な用途、さらには業界や社会、環境への影響について疑問を呈しています。これらの推測は、商業利用が今後しばらくは期待できないデモから生まれており、そのためにさらに期待が高まっています。
同時に、SoraはOpenAIが「すべての人類に利益をもたらす」人工一般知能(AGI)の開発を目指していることを示しています。OpenAIは、外部からのフィードバックを求めるためにSoraの研究進展を早期に共有しており、今後のAIの能力を垣間見る機会を提供しています。Soraに関する技術報告のタイトル「動画生成モデルとしての世界シミュレーター」は、単なるクリエイター向けのツールではなく、AGIに向けたAI研究の推進を示唆していますが、その正確な定義はまだはっきりしていません。
この興味深い逆説、つまりOpenAIの現在の取り組みの神秘さと長期的なビジョンに対する明確さは、一般の認知と技術のビジネス採用が進む中で見過ごされがちです。
Soraの研究者たちは、その現時点での影響を十分に理解しており、クリエイティブな用途への展開には慎重です。DALL-Eの共同開発者であり、Soraチームの一員であるOpenAIの科学者アディティヤ・ラメッシュは、高度にリアルな動画の悪用の可能性について懸念を示しました。「私たちは展開に慎重であり、一般の人々に公開する前にすべての準備が整っていることを確認しています」と彼は説明しました。
それでもラメッシュは、Soraが重要な前進であると考えています。「私たちは、人間に似た方法で世界を理解するためのAIの進化にワクワクしています」とXでコメントしました。
ラメッシュの動画に関する考えは、2023年1月のDALL-E開発に関する振り返りインタビューにさかのぼります。彼は、動画技術の影響についてすでに考え始めていたことを示唆しました。DALL-Eに関与することに興味を持った理由を尋ねると、彼は視覚に関連する知性の独自の側面を強調しました。「動画では、因果関係を理解するシーケンスを生成するモデルを想像できます」と述べています。
私たちの会話の中で、ラメッシュはOpenAIの二面性を捉えました。一方で、彼はより多くの人々にDALL-Eの能力を知ってもらいたいと願い、その技術へのアクセスを広げたいと感じていました。もう一方で、彼の研究者としての主な動機は、GPT-2の成功を基にAIの可能性の限界を押し広げ、テキストから画像生成の研究を進め、人間のような外挿を再現できるかどうかを探求することでした。
結局、Soraは単に動画だけではありません。
短期的には、多くの課題を抱えるクリエイティブなツールとして機能する可能性がありますが、OpenAIはSoraをより大きなビジョンの一部として捉えています。Nvidiaのジム・ファンが指摘したように、Soraを「データ駆動型の物理エンジン」として多様な世界をシミュレーションするものと見るか、またはかつての「分析による合成」のような欠陥のある試みとして批判するかどうかにかかわらず、注目すべきはSoraが優れた動画アプリケーションであるという点だけではなく、OpenAIの二重の目的を無視することです。
OpenAIは確かに、消費者向け製品、企業イニシアティブ、開発者コミュニティとの関与を通じて生成AI戦略を実行しています。しかし、これらはすべてAGIを実現するというビジョンへの一歩に過ぎません。
Soraの目的に興味を持つ方々へ、覚えておいてほしいのは、この二面性です。OpenAIが現在動画分野に取り組んでいる一方で、最終的にははるかに大きな目標に注力しているということです。