麻省理工学院与Cohere联手推出审计AI数据集的跟踪和过滤平台

Home AI News CN 麻省理工学院与Cohere联手推出审计AI数据集的跟踪和过滤平台

麻省理工学院、Cohere for AI 及其他11家机构今天联合推出了数据来源平台，旨在解决人工智能领域中日益迫切的数据透明性问题。他们对近2000个最常用的微调数据集进行了审核与追踪，这些数据集总计被下载数千万次，成为多项重要自然语言处理（NLP）突破的基础。麻省理工媒体实验室的博士生Shayne Longpre和Cohere for AI负责人Sara Hooker表示：“这项多学科合作的结果是迄今为止最大规模的人工智能数据集审核。”此次首次为这些数据集添加了标签，能够识别原始数据来源、多次重新授权、创作者及其他相关数据属性。

为了提高可用性，数据来源探索器（Data Provenance Explorer）作为一个互动平台，使开发者能够根据法律和伦理标准，跟踪和筛选数千个数据集。同时，这一资源也为学者和记者提供了调查流行AI数据集构成和来源的便利。

数据集的来源被忽视

该倡议最终形成了题为《数据来源倡议：人工智能数据集许可和归属的大规模审核》的论文，强调了一个重要问题：“广泛使用的数据集集合常常被视为一个统一的整体，而忽视了其多样的来源。这些数据集通常通过不同工作者多次重包装和授权的过程中，经过抓取、生成、策划及标注而成。”

由于数据收集的规模庞大，归属过程的复杂性以及加剧的版权审查，使得对此来源的承认面临阻碍。因此，数据表的使用减少，训练来源的披露不足，导致对训练数据理解的缺乏。这种知识缺口可能导致训练集与测试集之间的数据泄露、个人可识别信息（PII）暴露、意外偏见或行为，最终导致模型质量低于预期。此外，这些缺口还带来了显著的伦理和法律风险，比如模型发布和数据使用条款之间的冲突。考虑到训练数据的高昂成本和较大不可逆性，这些挑战并不容易解决。

2023年对训练数据集的审查加强

2023年，媒体广泛报道了与数据来源及训练数据集透明性相关的问题。例如，3月份，Lightning AI首席执行官William Falcon批评OpenAI的GPT-4论文“伪装成研究”，强调其缺乏重要细节。报告的“范围和局限性”部分特别指出，由于与大型模型（如GPT-4）相关的竞争和安全问题，缺少有关架构、数据集构建和训练方法的信息。

9月份，关于生成AI训练数据的版权问题发表了一项详细分析。分布式AI研究院（DAIR）研究主任Dr. Alex Hanna指出，生成AI的快速普及引发了对未经同意收集的版权内容使用的重大担忧。

NatureEye 发布令人沉浸的无人机体验，探索全球壮丽自然奇观

亚马逊推出革命性AI产品图片生成器