Alors que les chercheurs en intelligence artificielle et les entreprises s'efforcent de développer des modèles d'apprentissage automatique plus grands et plus efficaces, le défi de la constitution de jeux de données adaptés se renforce. Pour relever ce défi, des chercheurs de Meta AI, Google, INRIA et de l'Université Paris-Saclay ont introduit une nouvelle technique de curation automatique pour des jeux de données de haute qualité, spécialement conçus pour l'apprentissage auto-supervisé (SSL).
Amélioration de l'Équilibre des Données dans l'Apprentissage Auto-Supervisé
L'apprentissage auto-supervisé joue un rôle essentiel dans l'IA moderne, alimentant des systèmes allant des grands modèles de langage aux applications spécialisées telles que l'imagerie médicale. Contrairement à l'apprentissage supervisé, qui repose sur des exemples annotés, le SSL utilise des données non étiquetées, permettant aux modèles et aux jeux de données de se développer à partir d'informations brutes.
La qualité des données impacte fortement la performance des modèles SSL. Les jeux de données obtenus aléatoirement sur Internet souffrent souvent de distributions déséquilibrées, où des concepts dominants eclipsent les plus rares, ce qui entraîne un biais des modèles et une incapacité à généraliser efficacement. Selon les chercheurs, "les jeux de données pour l'apprentissage auto-supervisé doivent être vastes, diversifiés et équilibrés." Ils soulignent la nécessité de jeux de données soigneusement élaborés, suggérant la formation de sous-ensembles équilibrés à partir de vastes dépôts de données en ligne.
Actuellement, un effort manuel considérable est consacré à la curation de jeux de données équilibrés pour le SSL. Bien que ce processus prenne moins de temps que l'annotation de chaque instance, il reste un goulet d'étranglement pour la formation de modèles à grande échelle.
Technique de Curation Automatique des Données
Pour simplifier ce processus, les chercheurs proposent une méthode de curation automatique qui produit des jeux de données d'entraînement équilibrés à partir de données brutes. Leur technique utilise des modèles d'embeddings et des algorithmes de clustering pour mettre en lumière les concepts sous-représentés dans les données.
Le processus commence par un modèle d'extraction de caractéristiques qui calcule des embeddings, des représentations numériques capturant les caractéristiques sémantiques de divers types de données, y compris des images, de l'audio et du texte. Ensuite, en utilisant le clustering k-means, les chercheurs regroupent les points de données en fonction de leurs similarités, actualisant les centroides de groupe de manière itérative pour créer des clusters d'exemples connexes.
Le clustering k-means traditionnel peut souvent entraîner un excès de groupes pour des concepts largement représentés. Pour remédier à cela, les chercheurs mettent en œuvre une méthode de clustering k-means hiérarchique en plusieurs étapes qui construit des clusters de bas en haut. Cette approche innovante applique simultanément le k-means aux niveaux de clusters précédents à chaque nouvelle étape de clustering, garantissant une représentation équilibrée à tous les stades.
Cette approche hiérarchique permet un clustering complet, préservant les exemples moins représentés tandis que l'algorithme évolue vers des clusters de haut niveau plus descriptifs. Les chercheurs qualifient cette technique d’"algorithme de curation générique, indépendant des tâches en aval", permettant l'extraction de propriétés de données significatives à partir de sources non curées, peu importe les spécificités de l'application.
Évaluation des Jeux de Données Auto-Curés
Les chercheurs ont mené d'importantes expériences en utilisant des modèles de vision par ordinateur entraînés avec des jeux de données curés par le clustering hiérarchique, en utilisant des images sans étiquettes manuelles. Leurs résultats indiquent que l'entraînement sur des jeux de données automatiquement curés améliore les performances sur des références de classification d'images, en particulier pour les exemples hors distribution, et renforce fortement la performance de récupération. Notamment, les modèles entraînés sur ces jeux de données ont des performances comparables à celles des modèles entraînés sur des jeux de données manuellement curés, nécessitant des ressources humaines substantielles.
Cet algorithme a également été appliqué avec succès aux données textuelles pour l'entraînement de grands modèles de langage et à l'imagerie satellite pour la prédiction de la hauteur du couvert forestier, donnant lieu à des améliorations impressionnantes dans divers bancs d'essai.
Il est significatif de noter que leurs expériences montrent que des modèles entraînés sur des jeux de données bien équilibrés peuvent rivaliser avec des modèles à la pointe, tout en reposant sur moins d'exemples.
L'introduction de cette technique de curation automatique des jeux de données a des implications profondes pour l'apprentissage automatique appliqué, en particulier dans les secteurs où les données soigneusement sélectionnées font défaut. Cette méthode peut considérablement réduire les coûts associés à l'annotation des données et à la curation pour le SSL, permettant à des modèles bien formés d'être ajustés pour des tâches d'apprentissage supervisé en aval avec un minimum de données étiquetées.
De plus, des entreprises comme Meta et Google, qui possèdent d'énormes quantités de données brutes non traitées, peuvent en bénéficier grandement. Les chercheurs affirment que "la curation automatique des jeux de données sera de plus en plus importante dans les futures chaînes d'entraînement."