大型人工智能训练数据集,通常称为语料库,被视为“大型语言模型”(LLMs)之基石。2023年,EleutherAI因创建全球最大的开源文本语料库之一——825 GB的Pile而备受关注。作为一个成立于2020年的草根非营利组织,EleutherAI最初是一个探索OpenAI的GPT-3的Discord集体,但在针对主要LLM(如OpenAI的GPT-4和Meta的Llama)训练所使用的数据集的法律及伦理问题日益加剧之际,它也受到审查。
EleutherAI在多起针对生成性人工智能的诉讼中被提及。其中,前阿肯色州州长迈克·哈卡比与几位作者在十月提起的诉讼声称,他们的书籍被包含在Books3这一有争议的数据集中,该数据集包含超过180,000部作品,并为Pile项目做出了贡献。Books3最初由肖恩·普雷瑟在2020年上传,并在2023年8月因丹麦反盗版组织的法律通知而被移除。
尽管面临这些挑战,EleutherAI正在与多所机构(如多伦多大学和艾伦人工智能研究所)及独立研究者合作,开发更新版的Pile数据集。EleutherAI的执行董事斯特拉·比德曼和政策与伦理负责人阿维亚·斯科沃龙在一次联合采访中透露,新的Pile预计将在几个月内完成。
比德曼表示,更新后的Pile将比其前身更大且“质量显著提升”。她强调:“将会有大量新数据”包含在其中,其中包括之前未曾见过的信息。与2020年12月发布的原始数据集相比,新的数据集将会更为新颖,且已用于训练类似Pythia和Stability AI的Stable LM等模型。借助于与近十款LLM的训练经验,比德曼指出,数据预处理方法已经得到改善:“在创建Pile时,我们从未训练过LLM,如今我们获悉了如何优化数据使用的宝贵见解。”
新的数据集将更加强调数据的质量与多样性。比德曼解释道:“我们计划引入更多的书籍以及更广泛的非学术类非虚构作品。”
原始Pile由22个子数据集组成,包括Books3、PubMed Central、arXiv、Stack Exchange、维基百科、YouTube字幕等,甚至还有恩龙公司邮件。比德曼表示,Pile仍然是全球文档记录最完善的LLM训练数据集。此项目旨在构建一个包含数十亿文本段落的庞大数据集,力图与OpenAI的GPT-3训练规模相媲美。
比德曼指出:“Pile在2020年推出时发挥了重要作用,因为它是独一无二的。”当时,只有一个公开的大型文本语料库C4可用,而谷歌利用该语料库用于多个语言模型。“但C4较小且数据多样性不足,”她表示,称其为精炼版的Common Crawl抓取。
EleutherAI制定Pile的过程涉及对信息和主题的选择性策划,旨在丰富模型的知识。“超过75%的Pile数据来源于特定领域,”她指出。“我们的目标是提供对世界的深刻洞见。”
斯科沃龙阐述了EleutherAI在模型训练和公平使用方面的立场,认为“当前的LLM依赖于受版权保护的数据”。Pile v2项目的一个目标是解决与版权和数据许可相关的问题。新的Pile数据集将包括公共领域作品、创意共享许可文本和政府文件,以确保符合法律标准。此外,还将包含已获得著作权人明确许可的数据集。
自2022年11月ChatGPT发布以来,关于AI训练数据集的批评声不断响起,特别是版权侵权的问题引发了关注。此后,许多创意艺术家、作家和出版商针对生成性人工智能提起诉讼,较为显著的案件包括《纽约时报》对OpenAI和微软的起诉。
关于AI训练数据的争论十分复杂。比德曼和斯科沃龙强调,需要认真对待一些道德困扰的案例,例如在LAION-5B数据集中发现儿童性虐待图像并导致其被移除。比德曼指出,标记此类内容的方法可能对LAION等组织并不适用。
他们进一步承认,许多创作者的作品被用于训练AI模型,许多人在宽松许可下进行使用,未曾预见AI的发展。“事后看来,许多人会选择不同的许可选项,”比德曼反思道。
尽管AI训练数据集曾主要作为研究工具,但现已转变为商业产品。比德曼表示:“如今,主要目的已经变为制造。”她强调了对AI模型训练商业影响的日益关注。
有趣的是,比德曼和斯科沃龙认为,基于像Pile这样的开放数据集训练的AI模型更为安全,因为数据的透明度能够促进各种上下文中的道德使用。斯科沃龙表示:“为了实现许多政策目标,必须有透明度,包括详尽的训练文档。”
随着EleutherAI持续优化Pile,比德曼对快速推出新模型表示乐观。“我们已经为此工作约一年半,我期待看到结果。我相信这会带来一些小但有意义的变化。”