アリババが発表したQwen2-VL:20分以上の動画を分析できる新しいAIモデル

アリババクラウドの最新のビジョン・ランゲージモデル「Qwen2-VL」が発表され、視覚理解、動画分析、マルチリンガルのテキスト画像処理を強化しています。 Qwen2-VLは、サードパーティのベンチマークテストに基づき、MetaのLlama 3.1やOpenAIのGPT-4o、AnthropicのClaude 3 Haiku、GoogleのGemini-1.5 Flashなどの主要モデルを上回っています。Hugging Faceで実際に試すことができます。

対応言語: 英語、中国語、ほとんどのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語。

高度な視覚と動画分析

アリババは、Qwen2-VLを通じて視覚データとのAIインタラクションを再定義しようとしています。このモデルは、複数言語の handwriting を分析し、画像内の物体を特定・描写し、ほぼリアルタイムでライブ動画を処理することができるため、テクニカルサポートやオペレーショナルタスクにも適しています。

GitHubのブログ投稿では、Qwen研究チームが「静止画像を超えて、Qwen2-VLは動画コンテンツ分析の能力を拡張しています。動画を要約し、関連する質問に答え、リアルタイムで会話を維持することが可能であり、ユーザーに直接動画コンテンツから洞察を提供するパーソナルアシスタントとして機能することができます」と強調しました。Qwen2-VLは20分以上の動画も分析し、その内容に関する質問に答えることが可能です。

例: 動画要約

あるデモでは、Qwen2-VLが宇宙ステーション内でミッションについて語る宇宙飛行士たちの動画を効果的に要約し、視聴者に宇宙探査の魅力を伝えました。

モデルのバリエーションとオープンソースオプション

Qwen2-VLは、Qwen2-VL-72B(720億パラメータ)、Qwen2-VL-7B、およびQwen2-VL-2Bの3つのバリエーションで提供されます。7Bおよび2BバージョンはApache 2.0ライセンスの下でオープンソースとして利用可能であり、企業にとって魅力的な選択肢です。これらのバリエーションは、アクセス可能なスケールで競争力のある性能を発揮し、Hugging FaceやModelScopeなどのプラットフォームで入手できます。ただし、最も大きな72Bモデルは、アリババの別のライセンスとAPIの下で後日提供される予定です。

機能と統合

Qwen2-VLSiriーズはQwenモデルファミリーを基盤にしており、以下のような進化を遂げています:

- モバイルフォンやロボットなどのデバイスへの統合が可能で、視覚およびテキスト入力に基づいて自動操作が行えます。

- サードパーティのソフトウェアやアプリケーションとのインタラクションを可能にする機能呼び出し機能を持ち、フライト状況やパッケージ追跡などの重要な情報を理解することができます。

これらの機能により、Qwen2-VLは複雑な推論や意思決定を必要とするタスクに対して強力なツールとなります。

アーキテクチャの革新

Qwen2-VLは、視覚データ処理を強化するためにいくつかのアーキテクチャ的な革新を取り入れています。ナイーブ・ダイナミック・レゾリューションサポートにより、異なる解像度の画像を処理でき、視覚解釈の精度を保証します。また、マルチモーダル・ロタリー・ポジション・エンベディング(M-ROPE)システムにより、テキスト、画像、動画間で位置情報を効果的に統合できます。

Qwenチームの今後の開発

Qwenチームは、追加モダリティの統合やモデルのアプリケーションの向上を目指して、ビジョン・ランゲージモデルの進化に取り組んでいます。Qwen2-VLモデルは、これらの最先端ツールの潜在能力を探求したい開発者や研究者に向けて公開されています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles