Meta和Google研究人員的新數據管理方法可能徹底改變自我監督學習技術

Home AI新聞 Meta和Google研究人員的新數據管理方法可能徹底改變自我監督學習技術

隨著 AI 研究人員和公司致力於開發更大、更高效的機器學習模型，適合數據集的篩選挑戰愈加嚴峻。為了解決這一問題，Meta AI、Google、INRIA 和巴黎薩克雷大學的研究人員提出了一種針對自我監督學習 (SSL) 的高質量數據集的自動篩選技術。

自我監督學習中的數據集平衡提升

自我監督學習在當代 AI 中扮演著關鍵角色，推動從大型語言模型到醫療影像等專門應用的系統發展。與依賴註釋訓練樣本的監督學習不同，SSL 使用未標記數據，讓模型和數據集能夠利用原始資訊進行擴展。數據質量在 SSL 模型性能上扮演重要角色。隨機從網絡上獲取的數據集通常存在不平衡的分佈，主導概念往往掩蓋較不常見的概念，導致模型偏見和一般化能力不足。

研究人員指出：“自我監督學習的數據集應該大規模、多樣化且平衡。”他們強調需要具備這些特性的篩選數據集，並建議從龐大的在線數據庫中形成平衡子集。目前，篩選自我監督學習的平衡數據集需要大量人工努力。這一過程雖然比標註每個實例耗時少，但仍然是大規模模型訓練的瓶頸。

自動數據集篩選技術

為了簡化這一過程，研究人員提出了一種自動篩選方法，從原始數據生成平衡的訓練數據集。這一技術利用嵌入模型和聚類算法，以突出數據中未充分表現的概念。該過程首先通過特徵提取模型計算嵌入，即捕捉各類數據（包括圖像、音頻和文本）語義特徵的數值表示。接著，研究人員利用 k-means 聚類算法根據相似性對數據點進行分組，並迭代更新組的重心，構建相關示例的集群。

傳統的 k-means 聚類常常導致對於過度代表的概念產生過多的組。為了解決此問題，研究人員實施了一種多步層次 k-means 方法，採用自下而上的方式構建集群。在每個新聚類步驟中，該方法同時對之前的集群層級應用 k-means，確保所有階段的平衡代表性。

這種層次方法允許全面的聚類，在算法向更少但更具描述性的頂層集群演進的過程中，保留較少表現的示例。研究人員將這一技術形容為一種“與下游任務無關的通用篩選算法”，使其能從未篩選的來源中提取有意義的數據特性，無論應用具體情況如何。

評估自動篩選數據集

研究人員利用通過層次聚類篩選的數據集訓練電腦視覺模型，並進行了大量實驗，使用未經手動標註的圖像。他們的研究結果顯示，基於自動篩選數據集進行訓練顯著提高了圖像分類基準的性能，特別是在異常分佈的例子上，並顯著提升了檢索性能。值得注意的是，這些數據集訓練的模型，在性能上與需要大量人力資源的手動篩選數據集的模型相當。

該算法同樣成功應用於文本數據，用於訓練大型語言模型，以及衛星影像的冠層高度預測，並在各項基準中表現出色。值得一提的是，他們的實驗顯示，基於良好平衡數據集訓練的模型，能夠與最先進的模型競爭，同時依賴較少的示例。

這一自動數據集篩選技術的引入，對應用機器學習產生深遠影響，特別是在數據稀缺的行業。這種方法能大幅降低與 SSL 相關的數據標註和篩選成本，使得經過良好訓練的模型能在標註數據極少的情況下，進行下游監督學習任務的微調。此外，擁有大量未處理原始數據的公司，如 Meta 和 Google，將從中獲益良多。研究人員聲稱，“自動數據集篩選在未來的訓練流程中將變得愈加重要。”

ElevenLabs 擴展 AI 能力：推出創新的 AI 設計音效

Dell 財報亮點：企業 AI 採用增長緩慢

Most people like

PDF Flex

35.3K

解鎖與您的 PDF 文件互動的新方式！我們創新的聊天功能讓您可以提問、檢索信息並直接從 PDF 中提取關鍵數據。通過與您的文檔無縫互動，簡化工作流程並提升生產力—所有這一切都是即時的。無論您是學生、專業人士還是研究者，這個工具都改變了您處理 PDF 的方式，使信息獲取比以往任何時候都更簡單。

PDF 轉換器 AI PDF

Story.com

釋放您的創意，打造並分享引人入勝的 AI 生成影片故事。探索人工智慧的力量，將您的想法轉化為視覺驚豔的敘事，與觀眾產生共鳴。無論是用於個人表達還是專業講述，我們的平台使您能輕鬆實現您的願景。立即投入 AI 影片創作的世界吧！

AI 影片故事 AI Story Writing

AI Blog Writer

162.4K

在當今競爭激烈的線上環境中，創造引人入勝且經過SEO優化的部落格內容對於提升流量和增加可見性至關重要。利用人工智慧的力量，您可以輕鬆生成高品質的部落格文章，這些文章不僅能與讀者產生共鳴，還能在搜尋引擎中獲得良好排名。了解 AI 驅動的工具如何簡化您的內容創作過程，讓您專注於推動在線成功的策略。

AI 博客撰寫工具 AI Blog Writer

GPT Engineer

29.6K

探索一款創新的AI工具，旨在通過對話互動輕鬆構建和部署網頁應用程式。這個易於使用的解決方案利用人工智慧的力量，簡化您的網頁開發流程，使其對新手和經驗豐富的開發者同樣可及。參與直觀的對話，輕鬆將您的想法轉化為功能齊全的應用程式。

人工智慧軟體工程師 AI Website Designer

Find AI tools in YBX