Microsoft、Florence-2を発表：多様なビジョンタスクに対応した統合モデル

Home AIニュース Microsoft、Florence-2を発表：多様なビジョンタスクに対応した統合モデル

最近、MicrosoftのAzure AIチームが新たなビジョン基盤モデル「Florence-2」をHugging Faceで発表しました。このモデルは、許可されたMITライセンスの下で利用可能で、統一されたプロンプトベースのフレームワークを通じて、様々な視覚及び視覚-言語タスクに優れた性能を発揮します。232Mと771Mの2つのサイズを提供しており、キャプショニング、物体検出、視覚的グラウンディング、セグメンテーションなどのタスクにおいて、多くの大型ビジョンモデルを上回る能力を示しています。

Florence-2の特長

Florence-2は、企業運営において重要な役割を果たす大型言語モデル（LLM）を参考にしており、要約、マーケティングコピー作成、カスタマーサポートなどのサービスを提供しています。これらのモデルは、異なるドメインでの適応性が非常に高いですが、研究者たちの疑問は、特定のタスク向けに設計されたビジョンモデルが同様の柔軟性を達成できるかどうかです。

ビジョンタスクは、テキストベースの自然言語処理（NLP）よりも本質的に複雑で、洗練された知覚能力が求められます。汎用モデルは、オブジェクトの位置から詳細なピクセル情報、高度なキャプションに至るまで、さまざまなスケールの空間データを理解する必要があります。

Microsoftは、統一されたビジョンモデルを作成するにあたり、広範に注釈が付けられた視覚データセットの不足と、空間的階層と意味的粒度を統合できる単一の事前トレーニングフレームワークの必要性という2つの主要な課題を特定しました。

これらの課題を克服するために、MicrosoftはFLD-5Bと呼ばれる視覚データセットを開発しました。このデータセットは、1.26億画像に対して54億以上の注釈を含んでおり、一般的な記述から特定のオブジェクト領域まで詳細を記述しています。このデータセットを用いてFlorence-2がトレーニングされ、画像エンコーダーとマルチモダリティエンコーダ・デコーダを組み合わせたシーケンス・ツー・シーケンスアーキテクチャを採用しています。この設計により、Florence-2はタスク特有のアーキテクチャ変更なしに様々なビジョンタスクを管理可能です。

パフォーマンスが大規模モデルを超える

Florence-2は、画像とテキストの入力を受けることで、物体検出、キャプショニング、視覚的グラウンディング、視覚的質問応答などのタスクを効果的に実行します。特に、その結果は、多くの大型モデルと同等か、それ以上の成果を上げています。

例えば、COCOデータセットでのゼロショットキャプショニングテストでは、232Mと771MのFlorence-2の両バージョンがDeepMindの80BパラメータのFlamingoモデルを上回り、それぞれ133および135.6のスコアを獲得しました。また、視覚的グラウンディングに特化したMicrosoftのKosmos-2モデルをも凌駕しています。

公開された注釈データでファインチューニングを行うと、Florence-2は視覚的質問応答のタスクにおいて、より大型の専門モデルと互角に競争しています。

「事前トレーニングされたFlorence-2は、COCOの物体検出やインスタンスセグメンテーション、ADE20Kのセマンティックセグメンテーションなどの下流タスクでの性能を向上させ、監視学習モデルや自己監視モデルを超えています」と研究者たちは述べています。「ImageNetで事前トレーニングされたモデルと比較して、私たちのモデルはトレーニング効率を4倍向上させ、COCOおよびADE20Kデータセットでそれぞれ6.9、5.5、5.9ポイントのパフォーマンス改善を達成しました。」

現在、事前トレーニングおよびファインチューニングされたFlorence-2（232Mおよび771M）の両バージョンが、MITライセンスの下でHugging Face上で利用可能で、商業利用やプライベート利用に制限がありません。

今後、開発者たちがFlorence-2をどのように活用し、異なるタスクのために個別のビジョンモデルを必要としない状態を実現するかが非常に楽しみです。これにより、コンパクトでタスク非依存のモデルが開発プロセスを効率化し、計算コストを大幅に削減できるでしょう。

作家が企業AI需要の急増に伴い、収益を3倍にし顧客基盤を250に拡大

OpenAI共同創設者イリヤ・サツケヴァー、安全なスーパインテリジェンスの課題解決に向けたスタートアップを設立

Most people like

FAT2FIT

5.9K

FAT2FITのご紹介：あなたの独自のフィットネス目標に合わせたパーソナライズされたボディトランスフォーメーションを実現する革新的なAI駆動プラットフォームです。最先端の技術と専門家のサポートにより、理想の体型をこれまで以上に効果的に手に入れるお手伝いをします。

ボディトランスフォーメーション Other

Copymatic

92.9K

Copymaticは、魅力的な広告、引き込まれるウェブコピー、情報豊かなブログコンテンツの作成を迅速に行うための革新的なAI駆動ツールです。高度な機能を備えたCopymaticは、コンテンツ生成をこれまでにないほど迅速かつ効率的にします。

AIコピーライター AI Blog Writer

Neighborbrite

51.6K

AIを活用したインスピレーションであなたの屋外空間を変革しましょう。革新的なアイデアやカスタマイズされたデザインを見つけて、景観を向上させ、理想的な庭の隠れ家を作り出しましょう。最新の技術を利用して、夢の庭づくりを今日から始めませんか！

AI駆動の AI Landscape Generator

IndieFeel.com

9.3K

歌はしばしば深いメッセージや感情を持ち、リスナーにその背後にある意味を探求することを促します。歌の意味を解釈することは、音楽への理解を深めるだけでなく、アーティストの意図や彼らが伝えたい感情と私たちを結びつけることでもあります。このガイドでは、歌詞を解読し、その中に繰り広げられる物語を理解するためのさまざまな技法を掘り下げます。カジュアルなリスナーでも音楽愛好者でも、歌の意味を解釈することを学ぶことで、リスニング体験が豊かになり、音楽芸術とのより深い結びつきを育むことができます。

歌 Other

Find AI tools in YBX