AI生成コンテンツの普及が進む中、業界のスタートアップはサービスの向上に取り組んでいます。最近、RunwayMLがよりリアルな動画生成モデルを発表しました。そして、元Google DeepMindの研究者Yishu Miao氏とZiyu Wang氏が設立したロンドン拠点のHaiperが、新たに視覚基盤モデル「Haiper 1.5」を発表しました。
Haiper 1.5は、Haiperのウェブおよびモバイルプラットフォームで利用可能で、ユーザーがテキスト、画像、動画のプロンプトから8秒のクリップを生成できるようになったIncrementalなアップグレードです。これは、従来のモデルから出力時間が2倍になったことを意味します。また、新たに導入されたアップスケーリング機能により、コンテンツの質が向上し、今後は画像生成機能も追加される予定です。
隠蔽状態からわずか4ヶ月で、Haiperは競合他社よりも資金力が劣るにもかかわらず、150万人以上のユーザーを獲得しています。この新しいモデルを通じて、同社はユーザーベースを拡大し、Runwayのような既存プレイヤーと競争できることを目指しています。
Miao氏は、「動画生成AIの競争は、モデルの能力だけでなく、これらのモデルが再現できる複雑さにも関係しています。私たちの分散データ処理とスケールトレーニングにより、基盤モデルの継続的な向上が可能になりました。このアップデートは、美しい動画だけでなく、現実的なイメージも作成するという私たちのコミットメントを示しています」と述べています。
Haiper AIがユーザーにもたらすもの
Haiperは3月にローンチされ、RunwayやPikaとともに動画生成プラットフォームとして位置づけられています。ユーザーがテキストプロンプトを入力すると、モデルが関連するコンテンツを生成します。キャラクター、オブジェクト、背景、アートスタイルの調整も可能です。
以前は2~4秒のクリップしか生成できませんでしたが、ユーザーのフィードバックを受けて新モデルでは最大8秒のクリップが生成できるようになりました。また、既存の2秒および4秒のクリップも8秒に拡張できます。これは、LumaのDream Machineなどの他のAIツールからの機能を反映しています。
Miao氏は、「私たちのモデルに対する熱心な反応があり、動画生成を8秒まで延ばすことに挑戦しました。この技術の限界に挑んでいます」とコメントしました。
新機能と強化ポイント
最新のアップデートでは、ユーザーが標準または高解像度で任意の長さのクリップを生成できるようになりました。ワンクリックで動画品質を1080pにアップスケールする機能が統合され、新たに生成されたコンテンツと既存のコンテンツの両方に対応しています。
さらに、Haiperは新しい画像モデルを追加し、ユーザーがテキストプロンプトから画像を生成し、動画生成プロセスにシームレスに統合できるようにする予定です。これにより、アニメーションの前により良いコンテンツテストと改良が可能になります。
Miao氏は、「Haiperではユーザーのフィードバックとイノベーションを重視しています。アップスケーリングの導入と今後のText2Imageツールは、コミュニティへのコミットメントを示しています」と強調しました。
AGIに向けての進展
Haiperの更新は有望ですが、広範なコミュニティテストはまだ待たれます。8秒の動画やアップスケーラーなど、一部の機能は現在、年額24ドルのProプランのユーザーに限定されています。Miao氏は、これらの機能へのアクセスを拡大する計画があり、長尺動画生成のためのクレジットシステムや、まずは画像モデルを無料で公開する予定です。
初期の品質フィードバックからは、2秒の動画は信頼性がある一方で、長尺動画は一貫性に欠けることが分かりました。しかし、継続的なアップデートにより、Haiperは出力の質を大幅に向上させることを目指しています。その目標は、AIが光や動き、質感、オブジェクトの相互作用を正確に描写できる、リアルなコンテンツを生成する能力を持つ人工一般知能(AGI)に向かうことです。
Miao氏は、「各フレームには緻密な視覚情報が含まれています。現実を真に反映したコンテンツを作成するためには、AIが物理世界の複雑さを理解しなければなりません。このような進展は、コンテンツ制作だけでなく、ロボティクスや輸送などの分野にも革命をもたらすでしょう」と結論付けました。
Haiperの進化が続く中、RunwayやPika、OpenAIなどの確立された競合とどのように競うか、AI動画生成の急速に発展する分野での展開に注目が集まります。