隨著 AI 研究人員和公司致力於開發更大、更高效的機器學習模型,適合數據集的篩選挑戰愈加嚴峻。為了解決這一問題,Meta AI、Google、INRIA 和 巴黎薩克雷大學的研究人員提出了一種針對自我監督學習 (SSL) 的高質量數據集的自動篩選技術。
自我監督學習中的數據集平衡提升
自我監督學習在當代 AI 中扮演著關鍵角色,推動從大型語言模型到醫療影像等專門應用的系統發展。與依賴註釋訓練樣本的監督學習不同,SSL 使用未標記數據,讓模型和數據集能夠利用原始資訊進行擴展。數據質量在 SSL 模型性能上扮演重要角色。隨機從網絡上獲取的數據集通常存在不平衡的分佈,主導概念往往掩蓋較不常見的概念,導致模型偏見和一般化能力不足。
研究人員指出:“自我監督學習的數據集應該大規模、多樣化且平衡。”他們強調需要具備這些特性的篩選數據集,並建議從龐大的在線數據庫中形成平衡子集。目前,篩選自我監督學習的平衡數據集需要大量人工努力。這一過程雖然比標註每個實例耗時少,但仍然是大規模模型訓練的瓶頸。
自動數據集篩選技術
為了簡化這一過程,研究人員提出了一種自動篩選方法,從原始數據生成平衡的訓練數據集。這一技術利用嵌入模型和聚類算法,以突出數據中未充分表現的概念。該過程首先通過特徵提取模型計算嵌入,即捕捉各類數據(包括圖像、音頻和文本)語義特徵的數值表示。接著,研究人員利用 k-means 聚類算法根據相似性對數據點進行分組,並迭代更新組的重心,構建相關示例的集群。
傳統的 k-means 聚類常常導致對於過度代表的概念產生過多的組。為了解決此問題,研究人員實施了一種多步層次 k-means 方法,採用自下而上的方式構建集群。在每個新聚類步驟中,該方法同時對之前的集群層級應用 k-means,確保所有階段的平衡代表性。
這種層次方法允許全面的聚類,在算法向更少但更具描述性的頂層集群演進的過程中,保留較少表現的示例。研究人員將這一技術形容為一種“與下游任務無關的通用篩選算法”,使其能從未篩選的來源中提取有意義的數據特性,無論應用具體情況如何。
評估自動篩選數據集
研究人員利用通過層次聚類篩選的數據集訓練電腦視覺模型,並進行了大量實驗,使用未經手動標註的圖像。他們的研究結果顯示,基於自動篩選數據集進行訓練顯著提高了圖像分類基準的性能,特別是在異常分佈的例子上,並顯著提升了檢索性能。值得注意的是,這些數據集訓練的模型,在性能上與需要大量人力資源的手動篩選數據集的模型相當。
該算法同樣成功應用於文本數據,用於訓練大型語言模型,以及衛星影像的冠層高度預測,並在各項基準中表現出色。值得一提的是,他們的實驗顯示,基於良好平衡數據集訓練的模型,能夠與最先進的模型競爭,同時依賴較少的示例。
這一自動數據集篩選技術的引入,對應用機器學習產生深遠影響,特別是在數據稀缺的行業。這種方法能大幅降低與 SSL 相關的數據標註和篩選成本,使得經過良好訓練的模型能在標註數據極少的情況下,進行下游監督學習任務的微調。此外,擁有大量未處理原始數據的公司,如 Meta 和 Google,將從中獲益良多。研究人員聲稱,“自動數據集篩選在未來的訓練流程中將變得愈加重要。”