全球最大AI訓練數據集之一的重大擴展，預示著品質與規模的提升

Home AI新聞全球最大AI訓練數據集之一的重大擴展，預示著品質與規模的提升

龐大的人工智慧訓練數據集，通常被稱為語料庫，被視為大型語言模型（LLM）的「脊樑」。在2023年，EleutherAI因創建全球最大的開源文本語料庫之一「825 GB Pile」而引起關注。該組織成立於2020年，起初是一個探索OpenAI的GPT-3的Discord集體，現如今面臨日益增長的法律與道德擔憂，尤其是關於用於訓練诸如OpenAI的GPT-4和Meta的Llama等流行LLM的數據集。

EleutherAI在許多聚焦生成式AI的訴訟中被提及。一宗引人注目的案件由前阿肯色州州長邁克·哈卡比及幾位作者提起，聲稱他們的書籍被納入了Books3，這是一個具爭議的數據集，包含超過180,000部作品，對Pile項目有所貢獻。Books3最初於2020年由肖恩·普雷瑟上傳，但因丹麥反盜版團體的法律通知於2023年8月被移除。

儘管面臨挑戰，EleutherAI仍在與多個機構，包括多倫多大學和艾倫人工智慧研究所，以及獨立研究者合作，開發更新版本的Pile數據集。EleutherAI執行董事斯特拉·比德曼與政策及倫理負責人阿維亞·斯科隆在一次聯合訪談中表示，新版Pile預計在幾個月內完成。

根據比德曼的說法，更新的Pile將顯著增大並「大幅改進」。她指出，「將會有大量新數據」，特別是之前未見的資料，且新數據集將包含比原始版本更新的資料。該原始數據集於2020年12月發布，並用於訓練如Pythia套件和Stability AI的Stable LM套件等模型。比德曼強調，隨著接近十種LLM的訓練，數據預處理的方法得到了改進：「當我們創建Pile時，我們從未訓練過LLM。如今，我們獲得了如何優化數據以便在LLM中最佳使用的寶貴見解。」

新版數據集還將重視數據質量和多樣性的納入。比德曼解釋：「我們計劃融入更多圖書以及更廣泛的非學術非虛構作品。」

原版Pile包含22個子數據集，包括Books3、PubMed Central、arXiv、Stack Exchange、維基百科、YouTube字幕，甚至恩隆公司的郵件。比德曼表示，Pile仍是全球最具文檔化的LLM訓練數據集。這項倡議旨在構建一個由數十億文本片段組成的龐大數據集，旨在與OpenAI為GPT-3訓練所投入的規模相媲美。

比德曼指出：「在2020年推出時，Pile的作用極為關鍵，因為它具有獨特性。」當時，僅有一個可公開訪問的大型文本語料庫C4存在，Google用該數據集訓練多種語言模型。她表示：「不過C4較小且多樣性不足，僅可視為精煉的Common Crawl抓取版本。」

EleutherAI在創建Pile時的做法是精心挑選信息和主題，以豐富模型的知識。「Pile中超過75%的數據來自特定領域的整理。」她補充說：「我們的目標是提供有關世界的有意義見解。」

斯科隆解釋了EleutherAI對模型訓練和合理使用的立場，強調「目前的LLM依賴於版權數據」。Pile v2項目的其中一個目標是解決與版權和數據授權相關的問題。新版Pile將納入公共領域作品、創用CC授權文本和政府文件，以確保符合法律標準。此外，還將包括已獲得權利持有者明確許可的數據集。

隨著2022年11月ChatGPT的推出，對AI訓練數據集的批評逐漸加劇，引發了有關版權侵權的擔憂。隨之而來的一系列生成式AI訴訟來自藝術家、作家和出版商，最終形成了對OpenAI和Microsoft的重大法律挑戰，包括來自《紐約時報》的訴訟。

有關AI訓練數據的辯論相當複雜。比德曼和斯科隆強調，解決道德上令人不安的案例至關重要，例如最近發現LAION-5B數據集中存在的兒童性虐待圖像，這導致其被移除。比德曼指出，用於標記此類內容的方法可能對LAION等組織並不具有法律可獲得性。

此外，他們也承認，許多創作的作品被用於訓練AI模型，並強調許多人在未預見到AI發展後，出於寬鬆的授權選擇進行了創作。「回頭看來，許多人會選擇不同的授權選項。」比德曼反思道。

儘管人工智慧訓練數據集曾主要是研究工具，但現在已轉變為商業產品。比德曼指出：「如今，主要目的是製造。」她強調對於AI模型訓練的商業影響日益增長的認識。

有趣的是，比德曼和斯科隆指出，基於如Pile等開放數據集訓練的AI模型更安全，因為對數據的高度透明有助於促進各種背景中的道德使用。斯科隆表示：「為了實現眾多政策目標，必須堅持透明性，包括全面的訓練文檔。」

在EleutherAI持續完善Pile的過程中，比德曼對即將推出的新模型表現出樂觀。「我們已經在這方面努力了一年半，我期待看到成果。我預計這將帶來小而重要的變化。」

微軟與SAP在2024年全國零售聯盟（NRF）活動前推出創新的零售人工智慧解決方案

1X：獲得OpenAI支持的機器人新創公司成功籌集1億美元資金

Most people like

Anki Decks

138.6K

你是否厭倦了花費數小時製作不牢靠的單字卡？想像一下，只需少量時間就能創建引人入勝且有效的單字卡。有了我們的創新技術，你可以提高學習效率，並更好地記憶資訊。快來探索如何以十倍的速度徹底改變你的學習體驗吧！

安記 AI AI Notes Assistant

Moveo AI

19.1K

通過運用先進的人工智慧技術實現自動化，提升您的客戶支持運營。

AI 代理人 AI Chatbot

Humanize AI Text

1.5M

在當今的數位環境中，創造能引起讀者共鳴的文本能力至關重要。將AI生成的內容轉換成類似人類的敘述，不僅提升了理解力，還促進了與受眾之間的真實連結。本指南探討了實現這一轉變的有效策略，確保在發揮AI潛力的同時，保持與人類寫作密切相關的溫暖和可親性。無論您是內容創作者、行銷人員還是商業專業人士，掌握這項技能能夠提升您的訊息傳遞效果。讓我們更深入地探討使AI文本感覺真實且引人入勝的技巧。

AI人性化工具 AI SEO Assistant

OpenPlayground

40.2K

歡迎來到 OpenPlayground，一個為輕鬆測試和分析語言模型而設計的精簡平台。探索各項功能，簡化您的評估過程，提升您對 AI 語言能力的理解。

開源 AI Developer Tools

Find AI tools in YBX