全球最大AI训练数据集之一大规模扩展，质量与规模双提升

Home AI News CN 全球最大AI训练数据集之一大规模扩展，质量与规模双提升

大型人工智能训练数据集，通常称为语料库，被视为“大型语言模型”（LLMs）之基石。2023年，EleutherAI因创建全球最大的开源文本语料库之一——825 GB的Pile而备受关注。作为一个成立于2020年的草根非营利组织，EleutherAI最初是一个探索OpenAI的GPT-3的Discord集体，但在针对主要LLM（如OpenAI的GPT-4和Meta的Llama）训练所使用的数据集的法律及伦理问题日益加剧之际，它也受到审查。

EleutherAI在多起针对生成性人工智能的诉讼中被提及。其中，前阿肯色州州长迈克·哈卡比与几位作者在十月提起的诉讼声称，他们的书籍被包含在Books3这一有争议的数据集中，该数据集包含超过180,000部作品，并为Pile项目做出了贡献。Books3最初由肖恩·普雷瑟在2020年上传，并在2023年8月因丹麦反盗版组织的法律通知而被移除。

尽管面临这些挑战，EleutherAI正在与多所机构（如多伦多大学和艾伦人工智能研究所）及独立研究者合作，开发更新版的Pile数据集。EleutherAI的执行董事斯特拉·比德曼和政策与伦理负责人阿维亚·斯科沃龙在一次联合采访中透露，新的Pile预计将在几个月内完成。

比德曼表示，更新后的Pile将比其前身更大且“质量显著提升”。她强调：“将会有大量新数据”包含在其中，其中包括之前未曾见过的信息。与2020年12月发布的原始数据集相比，新的数据集将会更为新颖，且已用于训练类似Pythia和Stability AI的Stable LM等模型。借助于与近十款LLM的训练经验，比德曼指出，数据预处理方法已经得到改善：“在创建Pile时，我们从未训练过LLM，如今我们获悉了如何优化数据使用的宝贵见解。”

新的数据集将更加强调数据的质量与多样性。比德曼解释道：“我们计划引入更多的书籍以及更广泛的非学术类非虚构作品。”

原始Pile由22个子数据集组成，包括Books3、PubMed Central、arXiv、Stack Exchange、维基百科、YouTube字幕等，甚至还有恩龙公司邮件。比德曼表示，Pile仍然是全球文档记录最完善的LLM训练数据集。此项目旨在构建一个包含数十亿文本段落的庞大数据集，力图与OpenAI的GPT-3训练规模相媲美。

比德曼指出：“Pile在2020年推出时发挥了重要作用，因为它是独一无二的。”当时，只有一个公开的大型文本语料库C4可用，而谷歌利用该语料库用于多个语言模型。“但C4较小且数据多样性不足，”她表示，称其为精炼版的Common Crawl抓取。

EleutherAI制定Pile的过程涉及对信息和主题的选择性策划，旨在丰富模型的知识。“超过75%的Pile数据来源于特定领域，”她指出。“我们的目标是提供对世界的深刻洞见。”

斯科沃龙阐述了EleutherAI在模型训练和公平使用方面的立场，认为“当前的LLM依赖于受版权保护的数据”。Pile v2项目的一个目标是解决与版权和数据许可相关的问题。新的Pile数据集将包括公共领域作品、创意共享许可文本和政府文件，以确保符合法律标准。此外，还将包含已获得著作权人明确许可的数据集。

自2022年11月ChatGPT发布以来，关于AI训练数据集的批评声不断响起，特别是版权侵权的问题引发了关注。此后，许多创意艺术家、作家和出版商针对生成性人工智能提起诉讼，较为显著的案件包括《纽约时报》对OpenAI和微软的起诉。

关于AI训练数据的争论十分复杂。比德曼和斯科沃龙强调，需要认真对待一些道德困扰的案例，例如在LAION-5B数据集中发现儿童性虐待图像并导致其被移除。比德曼指出，标记此类内容的方法可能对LAION等组织并不适用。

他们进一步承认，许多创作者的作品被用于训练AI模型，许多人在宽松许可下进行使用，未曾预见AI的发展。“事后看来，许多人会选择不同的许可选项，”比德曼反思道。

尽管AI训练数据集曾主要作为研究工具，但现已转变为商业产品。比德曼表示：“如今，主要目的已经变为制造。”她强调了对AI模型训练商业影响的日益关注。

有趣的是，比德曼和斯科沃龙认为，基于像Pile这样的开放数据集训练的AI模型更为安全，因为数据的透明度能够促进各种上下文中的道德使用。斯科沃龙表示：“为了实现许多政策目标，必须有透明度，包括详尽的训练文档。”

随着EleutherAI持续优化Pile，比德曼对快速推出新模型表示乐观。“我们已经为此工作约一年半，我期待看到结果。我相信这会带来一些小但有意义的变化。”

微软与SAP在NRF 2024前发布创新AI零售解决方案

1X：获得OpenAI支持的机器人初创公司成功融资1亿美金