全球最大AI訓練數據集之一的重大擴展,預示著品質與規模的提升

龐大的人工智慧訓練數據集,通常被稱為語料庫,被視為大型語言模型(LLM)的「脊樑」。在2023年,EleutherAI因創建全球最大的開源文本語料庫之一「825 GB Pile」而引起關注。該組織成立於2020年,起初是一個探索OpenAI的GPT-3的Discord集體,現如今面臨日益增長的法律與道德擔憂,尤其是關於用於訓練诸如OpenAI的GPT-4和Meta的Llama等流行LLM的數據集。

EleutherAI在許多聚焦生成式AI的訴訟中被提及。一宗引人注目的案件由前阿肯色州州長邁克·哈卡比及幾位作者提起,聲稱他們的書籍被納入了Books3,這是一個具爭議的數據集,包含超過180,000部作品,對Pile項目有所貢獻。Books3最初於2020年由肖恩·普雷瑟上傳,但因丹麥反盜版團體的法律通知於2023年8月被移除。

儘管面臨挑戰,EleutherAI仍在與多個機構,包括多倫多大學和艾倫人工智慧研究所,以及獨立研究者合作,開發更新版本的Pile數據集。EleutherAI執行董事斯特拉·比德曼與政策及倫理負責人阿維亞·斯科隆在一次聯合訪談中表示,新版Pile預計在幾個月內完成。

根據比德曼的說法,更新的Pile將顯著增大並「大幅改進」。她指出,「將會有大量新數據」,特別是之前未見的資料,且新數據集將包含比原始版本更新的資料。該原始數據集於2020年12月發布,並用於訓練如Pythia套件和Stability AI的Stable LM套件等模型。比德曼強調,隨著接近十種LLM的訓練,數據預處理的方法得到了改進:「當我們創建Pile時,我們從未訓練過LLM。如今,我們獲得了如何優化數據以便在LLM中最佳使用的寶貴見解。」

新版數據集還將重視數據質量和多樣性的納入。比德曼解釋:「我們計劃融入更多圖書以及更廣泛的非學術非虛構作品。」

原版Pile包含22個子數據集,包括Books3、PubMed Central、arXiv、Stack Exchange、維基百科、YouTube字幕,甚至恩隆公司的郵件。比德曼表示,Pile仍是全球最具文檔化的LLM訓練數據集。這項倡議旨在構建一個由數十億文本片段組成的龐大數據集,旨在與OpenAI為GPT-3訓練所投入的規模相媲美。

比德曼指出:「在2020年推出時,Pile的作用極為關鍵,因為它具有獨特性。」當時,僅有一個可公開訪問的大型文本語料庫C4存在,Google用該數據集訓練多種語言模型。她表示:「不過C4較小且多樣性不足,僅可視為精煉的Common Crawl抓取版本。」

EleutherAI在創建Pile時的做法是精心挑選信息和主題,以豐富模型的知識。「Pile中超過75%的數據來自特定領域的整理。」她補充說:「我們的目標是提供有關世界的有意義見解。」

斯科隆解釋了EleutherAI對模型訓練和合理使用的立場,強調「目前的LLM依賴於版權數據」。Pile v2項目的其中一個目標是解決與版權和數據授權相關的問題。新版Pile將納入公共領域作品、創用CC授權文本和政府文件,以確保符合法律標準。此外,還將包括已獲得權利持有者明確許可的數據集。

隨著2022年11月ChatGPT的推出,對AI訓練數據集的批評逐漸加劇,引發了有關版權侵權的擔憂。隨之而來的一系列生成式AI訴訟來自藝術家、作家和出版商,最終形成了對OpenAI和Microsoft的重大法律挑戰,包括來自《紐約時報》的訴訟。

有關AI訓練數據的辯論相當複雜。比德曼和斯科隆強調,解決道德上令人不安的案例至關重要,例如最近發現LAION-5B數據集中存在的兒童性虐待圖像,這導致其被移除。比德曼指出,用於標記此類內容的方法可能對LAION等組織並不具有法律可獲得性。

此外,他們也承認,許多創作的作品被用於訓練AI模型,並強調許多人在未預見到AI發展後,出於寬鬆的授權選擇進行了創作。「回頭看來,許多人會選擇不同的授權選項。」比德曼反思道。

儘管人工智慧訓練數據集曾主要是研究工具,但現在已轉變為商業產品。比德曼指出:「如今,主要目的是製造。」她強調對於AI模型訓練的商業影響日益增長的認識。

有趣的是,比德曼和斯科隆指出,基於如Pile等開放數據集訓練的AI模型更安全,因為對數據的高度透明有助於促進各種背景中的道德使用。斯科隆表示:「為了實現眾多政策目標,必須堅持透明性,包括全面的訓練文檔。」

在EleutherAI持續完善Pile的過程中,比德曼對即將推出的新模型表現出樂觀。「我們已經在這方面努力了一年半,我期待看到成果。我預計這將帶來小而重要的變化。」

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles