麻省理工學院與Cohere攜手推出平台，以追蹤和過濾經過審核的人工智慧數據集

Home AI新聞麻省理工學院與Cohere攜手推出平台，以追蹤和過濾經過審核的人工智慧數據集

麻省理工學院、Cohere for AI及其他11個機構今天推出了數據來源平台，旨在解決人工智慧（AI）數據透明度的迫切問題。他們對近2000個最廣泛使用的微調數據集進行了審查和追蹤，這些數據集的下載次數合計達數千萬次，為許多重大自然語言處理（NLP）突破奠定了基礎。根據麻省理工學院媒體實驗室博士生Shayne Longpre和Cohere for AI負責人Sara Hooker的說法，「這一多學科的努力成果是迄今為止對AI數據集進行的最大規模審核。」這些數據集首次增加了標籤，用於識別原始數據來源、多次重新授權、創建者及其他相關數據屬性。

為了提高可用性，數據來源探險者（Data Provenance Explorer）作為一個互動平台，使開發者能夠根據法律和倫理標準追蹤和過濾數千個數據集。該資源同樣支持學者和記者調查流行的AI數據集的組成和來源。

資料集集合忽視來源

該倡議的成果是一篇名為《數據來源倡議：AI數據集授權與歸屬的規模審計》的論文，強調了一個重大問題：「廣泛使用的數據集集合往往被視為單一的，而並未意識到其多樣的來源。這些數據集經常在各種重新包裝和授權過程中，由不同的從業者進行抓取、生成、策劃和標註。」

不承認來源的動機來自於數據收集的龐大規模，這使得歸屬過程變得複雜，加上加大了版權檢查的壓力。因此，數據表的使用減少，培訓來源的披露不足，導致對訓練數據的理解減弱。這種知識空白可能會導致訓練數據集和測試數據集之間的數據洩露、個人可識別信息（PII）的曝光、無意的偏見或行為，最終使得模型質量低於預期。此外，這些空白還帶來重大的倫理和法律風險，例如模型發布與數據使用條款之間的衝突。考慮到數據訓練既昂貴又基本不可逆，這些挑戰並不容易解決。

2023年對訓練數據集的監察加強

在2023年，媒體報導突出了與數據來源和訓練數據集透明度有關的問題。例如，在三月，Lightning AI首席執行官William Falcon批評OpenAI的GPT-4論文「偽裝成研究」，強調其缺乏重要細節。報告的「範圍與限制」部分特別提到，由於對大型模型（如GPT-4）的競爭和安全問題，排除了有關架構、數據集建構和訓練方法的信息。

在九月，發表了一篇詳細分析，針對困擾生成性AI訓練數據的版權問題。Distributed AI Research Institute（DAIR）研究主任Dr. Alex Hanna評論了生成性AI迅速增長帶來的緊迫挑戰，指出這引發了有關未經同意收集的版權內容使用的重大擔憂。

NatureEye 揭幕全球壯麗自然奇觀的沉浸式無人機體驗

亞馬遜推出革命性AI產品圖片生成器