ゲッティイメージズ、AI基盤モデルのための「最もクリーンな」ビジュアルデータセットを発表

Home AIニュースゲッティイメージズ、AI基盤モデルのための「最もクリーンな」ビジュアルデータセットを発表

Getty Imagesは、AI分野における信頼できるデータパートナーになることを目指しています。世界中のフォトグラファーやビデオグラファーから視覚コンテンツの発見、共有、購入を容易にすることで知られる同社は、Hugging Face上にサンプルオープンデータセットを公開したと発表しました。

Hugging Faceのハブには多くの視覚データセットがありますが、Getty Imagesは自社の提供するデータセットが特に信頼性が高く、商業的に安全であると主張しています。この保証により、企業の開発者は、品質や法的な懸念を軽減しながら、自信を持ってデータセットをAIトレーニングパイプラインに統合することができます。

Getty ImagesのデータサイエンスおよびAI/ML部門の責任者、アンドレア・ガリアーノは次のように説明しています。「多様で高品質なデータを責任を持って調達することで、あなたのAI/ML能力を向上させることを想像してみてください。それが私たちが提供するものです。」

Gettyの長期的な目標は、AI開発者がモデルのトレーニングにおいて自社プラットフォームから正式にライセンスされたコンテンツを好んで利用するエコシステムを育むことです。

Getty Imagesデータセットの内容

開発者は、AI/MLモデルのトレーニング時に、質の低いデータや情報源が不十分なデータに直面することがよくあります。これに対処するため、彼らは通常、重複、不良ファイル、セレブの画像、商標、低解像度画像、適切なMetaデータが欠如している素材などを取り除くために多くの時間を費やします。この時間のかかるプロセスは、効率の低下や法的紛争を引き起こす原因にもなり得ます。

Getty Imagesのオープンデータセットは、15のカテゴリーにわたる厳選された高品質な画像を提供することで、これらの課題を克服しようとしています。「このサンプルデータセットには、抽象、建造物、ビジネス、教育、医療、産業、自然、イラスト、旅行などを含む3,750枚の画像が含まれています」とガリアーノは説明しています。

クリーンで厳選されたコンテンツ

このデータセットはGetty自身のクリエイティブライブラリからのみ収集されており、すべての画像が商業利用に適しています。開発者は、この厳選されたデータセットを使用することで、清掃や強化の負担がなく、機械学習トレーニングに特化した高解像度の画像と豊富な構造化Metaデータを利用できます。不適切なコンテンツが含まれていないため、ガリアーノはこれを「クリーンで最高品質のデータセット」と称しています。

利用条件

サンプルデータセットは自由に使用できますが、いくつかの利用条件があり、ライセンスされたコンテンツが商業用途および学術研究のために責任を持って使用されることが求められます。制限事項は以下の通りです。

- データセットの再配布禁止

- データセットの内容を再現または生成するモデルやソフトウェアの開発禁止

- Getty Imagesと直接競合する製品やサービスの作成禁止

- データセットから派生する生体識別子の使用禁止

- すべての関連法令への遵守

この取り組みを通じて、Getty Imagesは開発者コミュニティとの関係を深め、提供する豊富なコンテンツを示しつつ、高品質なライセンスデータの「信頼できるパートナー」としての地位を確立しようとしています。ガリアーノは「機能的なAIモデルをトレーニングするために必要なすべてのコンテンツのライセンスを取得することが可能であることを示すのが私たちの目標です」と強調しています。追加のデータを求める開発者は、Getty Imagesにカスタマイズされたライセンスオプションをリクエストできます。

このアプローチにより、オリジナルコンテンツのクリエイターは年次報酬を受け取ることができ、Getty ImagesはNvidiaとのパートナーシップで開発したAI画像生成ツールにも同様のモデルを適用しています。

Googleのプロンプトポエットを使った少数ショット学習でLLMのパフォーマンスを向上させる方法

AIは営業の未来か？Salesforceの革新的モデルが業界を変革する可能性