AI研究者や企業がより大きく、効果的な機械学習モデルを開発しようと努力する中、適切なデータセットのキュレーションという課題はますます重要性を増しています。この問題に対処するために、Meta AI、Google、INRIA、パリサクレ大学の研究者たちは、自己教師あり学習(SSL)に特化した高品質なデータセットの自動キュレーション手法を提案しました。
自己教師あり学習におけるデータセットのバランス向上
自己教師あり学習は、現代のAIにおいて重要な役割を果たしており、大規模言語モデルから医療画像のような特化アプリケーションまで、幅広く応用されています。教師あり学習が注釈付きのトレーニング例に依存するのに対し、SSLはラベルのないデータを利用し、生データを用いてモデルとデータセットのスケールを拡張します。
データの質は、SSLモデルのパフォーマンスに大きく影響します。インターネットからランダムに集められたデータセットは、支配的な概念が稀な概念を圧倒しがちで、これによりモデルが偏り、一般化能力が損なわれることがあります。研究者たちは、「自己教師あり学習のためのデータセットは、大規模で多様性があり、バランスが取れているべきだ」と述べ、これらの特性を持つキュレーション済みデータセットの必要性を強調しています。
現在、SSLのためには膨大な手動によるキュレーション作業が行われており、そのプロセスは依然として大規模なモデルトレーニングのボトルネックとなっています。
自動データセットキュレーション手法
このプロセスを効率化するため、研究者たちは生データからバランスの取れたトレーニングデータセットを生成する自動キュレーション手法を提案しました。この技術は、埋め込みモデルとクラスタリングアルゴリズムを利用して、データ内の過小評価されている概念を強調します。
プロセスは、特徴抽出モデルが埋め込みを計算することから始まります。この埋め込みは、画像、音声、テキストなど異なるデータタイプの意味的特徴を捉えた数値表現です。次に、k-meansクラスタリングを用いて、研究者は類似性に基づいてデータポイントをグループ化し、関連する事例のクラスタを構築するためにグループのセントロイドを逐次更新します。
従来のk-meansクラスタリングでは、代表的な概念に対して過剰な数のグループが生成されることがあります。これに対処するため、研究者たちはボトムアップ方式でクラスタを構築する階層的k-means手法を導入しました。この革新的なアプローチでは、各クラスタリングステップで以前のクラスタレベルにk-meansを同時に適用し、各段階でのバランスの取れた表現を保証します。
自動キュレーションされたデータセットの評価
研究者たちは、階層的クラスタリングによってキュレーションされたデータセットを用いてコンピュータビジョンモデルをトレーニングし、手動ラベルのない画像を使用して広範な実験を行いました。その結果、自動キュレーションされたデータセットでトレーニングを行うことで、特に分布外のサンプルにおける画像分類ベンチマークでのパフォーマンスが向上し、検索パフォーマンスも大幅に改善されたことが確認されました。興味深いことに、これらのデータセットでトレーニングされたモデルは、膨大な人的リソースを必要とする手動キュレーションデータセットで訓練されたモデルと同等のパフォーマンスを示しました。
このアルゴリズムは、大規模な言語モデルや衛星画像による樹冠高予測のためのテキストデータにも成功裏に適用され、さまざまなベンチマークで顕著な改善をもたらしました。
自動データセットキュレーション技術の導入は、特にキュレーションされたデータが不足している業界において、応用機械学習に深遠な影響を及ぼします。この手法は、SSLのデータ注釈やキュレーションに関連するコストを劇的に削減し、少ないラベル付きデータで下流の教師あり学習タスクにフィットするように高品質なモデルを微調整することを可能にします。
また、MetaやGoogleなどの未処理の生データを多数保有する企業は、大きな恩恵を受けることができます。研究者たちは、「自動データセットキュレーションは将来のトレーニングパイプラインでますます重要になる」と述べています。