随着人工智能研究人员和公司致力于开发更大、更有效的机器学习模型,合适数据集的整理难度也在加大。为了解决这一问题,Meta AI、谷歌、INRIA和巴黎萨克雷大学的研究人员引入了一种新型自动数据集整理技术,旨在为自我监督学习(SSL)提供高质量的数据集。
提升自我监督学习中的数据集平衡性
自我监督学习在现代人工智能中扮演着重要角色,推动了从大型语言模型到医疗图像等专用应用的发展。与依赖标注训练样本的监督学习不同,SSL利用未标记数据,使模型和数据集可以利用原始信息进行扩展。
数据质量对SSL模型性能有显著影响。来自互联网的随机数据集往往存在分布不平衡的问题,使得主导概念掩盖了稀有概念,导致模型偏见和泛化能力不足。据研究人员称:“自我监督学习的数据集应当大、丰富且均衡。”他们强调需要具备这些特性的整理数据集,建议从广泛的在线数据仓库中形成均衡子集。
目前,整理用于SSL的均衡数据集需要投入大量人工努力。尽管这一过程比逐个标注所有实例所需的时间短,但仍然是大规模模型训练的瓶颈。
自动数据集整理技术
为简化这一过程,研究人员提议采用自动整理方法,从原始数据中生成均衡的训练数据集。这个技术利用嵌入模型和聚类算法来突出数据中的低频概念。
该过程首先通过特征提取模型计算嵌入,即捕捉各种数据类型(包括图像、音频和文本)语义特征的数值表示。然后利用k均值聚类,根据相似性对数据点进行分组,并通过迭代更新聚类中心来构建相关示例的集群。
传统的k均值聚类往往会导致为大多数概念形成过多的组。为了解决这一问题,研究人员实施了一种多步骤的层次k均值方法,自下而上地构建聚类。在每个新的聚类步骤中,该创新方法同时对之前的聚类层进行k均值应用,确保所有阶段都有均衡的表示。
这种层次方法允许全面聚类,并在算法逐步趋向于较少的、更具描述性的顶层聚类时,保留较少被表示的示例。研究人员将这一技术称为“与下游任务无关的通用整理算法”,能够从未经整理的来源中提取有意义的数据特征,无论应用具体情况如何。
评估自动整理的数据集
研究人员进行了广泛实验,使用通过层次聚类整理的数据集训练计算机视觉模型,且使用的图像没有手动标签。他们的发现表明,利用自动整理的数据集进行训练,在图像分类基准上提高了性能,特别是在异构例子中,并且显著改善了检索性能。值得注意的是,基于这些数据集训练的模型在性能上与需大量人力资源的手动整理数据集相当。
这一算法也成功应用于文本数据,训练大型语言模型和卫星图像的冠层高度预测,在多个基准上都取得了显著提升。研究显示,基于均衡数据集训练的模型,能够与前沿模型竞争,且所需示例数量较少。
这一自动数据整理技术的引入对应用机器学习具有深远意义,尤其是在整理数据稀缺的行业。这种方法可以显著降低与数据标注和整理相关的成本,使得经过良好训练的模型能够在标记数据较少的情况下,进行下游监督学习任务的微调。
此外,像Meta和谷歌这样拥有大量未经处理原始数据的公司,将会获得巨大收益。研究人员指出,“自动数据集整理在未来的训练流程中将变得越来越重要。”