麻省理工學院與Cohere攜手推出平台,以追蹤和過濾經過審核的人工智慧數據集

麻省理工學院、Cohere for AI及其他11個機構今天推出了數據來源平台,旨在解決人工智慧(AI)數據透明度的迫切問題。他們對近2000個最廣泛使用的微調數據集進行了審查和追蹤,這些數據集的下載次數合計達數千萬次,為許多重大自然語言處理(NLP)突破奠定了基礎。根據麻省理工學院媒體實驗室博士生Shayne Longpre和Cohere for AI負責人Sara Hooker的說法,「這一多學科的努力成果是迄今為止對AI數據集進行的最大規模審核。」這些數據集首次增加了標籤,用於識別原始數據來源、多次重新授權、創建者及其他相關數據屬性。

為了提高可用性,數據來源探險者(Data Provenance Explorer)作為一個互動平台,使開發者能夠根據法律和倫理標準追蹤和過濾數千個數據集。該資源同樣支持學者和記者調查流行的AI數據集的組成和來源。

資料集集合忽視來源

該倡議的成果是一篇名為《數據來源倡議:AI數據集授權與歸屬的規模審計》的論文,強調了一個重大問題:「廣泛使用的數據集集合往往被視為單一的,而並未意識到其多樣的來源。這些數據集經常在各種重新包裝和授權過程中,由不同的從業者進行抓取、生成、策劃和標註。」

不承認來源的動機來自於數據收集的龐大規模,這使得歸屬過程變得複雜,加上加大了版權檢查的壓力。因此,數據表的使用減少,培訓來源的披露不足,導致對訓練數據的理解減弱。這種知識空白可能會導致訓練數據集和測試數據集之間的數據洩露、個人可識別信息(PII)的曝光、無意的偏見或行為,最終使得模型質量低於預期。此外,這些空白還帶來重大的倫理和法律風險,例如模型發布與數據使用條款之間的衝突。考慮到數據訓練既昂貴又基本不可逆,這些挑戰並不容易解決。

2023年對訓練數據集的監察加強

在2023年,媒體報導突出了與數據來源和訓練數據集透明度有關的問題。例如,在三月,Lightning AI首席執行官William Falcon批評OpenAI的GPT-4論文「偽裝成研究」,強調其缺乏重要細節。報告的「範圍與限制」部分特別提到,由於對大型模型(如GPT-4)的競爭和安全問題,排除了有關架構、數據集建構和訓練方法的信息。

在九月,發表了一篇詳細分析,針對困擾生成性AI訓練數據的版權問題。Distributed AI Research Institute(DAIR)研究主任Dr. Alex Hanna評論了生成性AI迅速增長帶來的緊迫挑戰,指出這引發了有關未經同意收集的版權內容使用的重大擔憂。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles