Microsoft、Florence-2を発表:多様なビジョンタスクに対応した統合モデル

最近、MicrosoftのAzure AIチームが新たなビジョン基盤モデル「Florence-2」をHugging Faceで発表しました。このモデルは、許可されたMITライセンスの下で利用可能で、統一されたプロンプトベースのフレームワークを通じて、様々な視覚及び視覚-言語タスクに優れた性能を発揮します。232Mと771Mの2つのサイズを提供しており、キャプショニング、物体検出、視覚的グラウンディング、セグメンテーションなどのタスクにおいて、多くの大型ビジョンモデルを上回る能力を示しています。

Florence-2の特長

Florence-2は、企業運営において重要な役割を果たす大型言語モデル(LLM)を参考にしており、要約、マーケティングコピー作成、カスタマーサポートなどのサービスを提供しています。これらのモデルは、異なるドメインでの適応性が非常に高いですが、研究者たちの疑問は、特定のタスク向けに設計されたビジョンモデルが同様の柔軟性を達成できるかどうかです。

ビジョンタスクは、テキストベースの自然言語処理(NLP)よりも本質的に複雑で、洗練された知覚能力が求められます。汎用モデルは、オブジェクトの位置から詳細なピクセル情報、高度なキャプションに至るまで、さまざまなスケールの空間データを理解する必要があります。

Microsoftは、統一されたビジョンモデルを作成するにあたり、広範に注釈が付けられた視覚データセットの不足と、空間的階層と意味的粒度を統合できる単一の事前トレーニングフレームワークの必要性という2つの主要な課題を特定しました。

これらの課題を克服するために、MicrosoftはFLD-5Bと呼ばれる視覚データセットを開発しました。このデータセットは、1.26億画像に対して54億以上の注釈を含んでおり、一般的な記述から特定のオブジェクト領域まで詳細を記述しています。このデータセットを用いてFlorence-2がトレーニングされ、画像エンコーダーとマルチモダリティエンコーダ・デコーダを組み合わせたシーケンス・ツー・シーケンスアーキテクチャを採用しています。この設計により、Florence-2はタスク特有のアーキテクチャ変更なしに様々なビジョンタスクを管理可能です。

パフォーマンスが大規模モデルを超える

Florence-2は、画像とテキストの入力を受けることで、物体検出、キャプショニング、視覚的グラウンディング、視覚的質問応答などのタスクを効果的に実行します。特に、その結果は、多くの大型モデルと同等か、それ以上の成果を上げています。

例えば、COCOデータセットでのゼロショットキャプショニングテストでは、232Mと771MのFlorence-2の両バージョンがDeepMindの80BパラメータのFlamingoモデルを上回り、それぞれ133および135.6のスコアを獲得しました。また、視覚的グラウンディングに特化したMicrosoftのKosmos-2モデルをも凌駕しています。

公開された注釈データでファインチューニングを行うと、Florence-2は視覚的質問応答のタスクにおいて、より大型の専門モデルと互角に競争しています。

「事前トレーニングされたFlorence-2は、COCOの物体検出やインスタンスセグメンテーション、ADE20Kのセマンティックセグメンテーションなどの下流タスクでの性能を向上させ、監視学習モデルや自己監視モデルを超えています」と研究者たちは述べています。「ImageNetで事前トレーニングされたモデルと比較して、私たちのモデルはトレーニング効率を4倍向上させ、COCOおよびADE20Kデータセットでそれぞれ6.9、5.5、5.9ポイントのパフォーマンス改善を達成しました。」

現在、事前トレーニングおよびファインチューニングされたFlorence-2(232Mおよび771M)の両バージョンが、MITライセンスの下でHugging Face上で利用可能で、商業利用やプライベート利用に制限がありません。

今後、開発者たちがFlorence-2をどのように活用し、異なるタスクのために個別のビジョンモデルを必要としない状態を実現するかが非常に楽しみです。これにより、コンパクトでタスク非依存のモデルが開発プロセスを効率化し、計算コストを大幅に削減できるでしょう。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles