麻省理工学院与Cohere联手推出审计AI数据集的跟踪和过滤平台

麻省理工学院、Cohere for AI 及其他11家机构今天联合推出了数据来源平台,旨在解决人工智能领域中日益迫切的数据透明性问题。他们对近2000个最常用的微调数据集进行了审核与追踪,这些数据集总计被下载数千万次,成为多项重要自然语言处理(NLP)突破的基础。麻省理工媒体实验室的博士生Shayne Longpre和Cohere for AI负责人Sara Hooker表示:“这项多学科合作的结果是迄今为止最大规模的人工智能数据集审核。”此次首次为这些数据集添加了标签,能够识别原始数据来源、多次重新授权、创作者及其他相关数据属性。

为了提高可用性,数据来源探索器(Data Provenance Explorer)作为一个互动平台,使开发者能够根据法律和伦理标准,跟踪和筛选数千个数据集。同时,这一资源也为学者和记者提供了调查流行AI数据集构成和来源的便利。

数据集的来源被忽视

该倡议最终形成了题为《数据来源倡议:人工智能数据集许可和归属的大规模审核》的论文,强调了一个重要问题:“广泛使用的数据集集合常常被视为一个统一的整体,而忽视了其多样的来源。这些数据集通常通过不同工作者多次重包装和授权的过程中,经过抓取、生成、策划及标注而成。”

由于数据收集的规模庞大,归属过程的复杂性以及加剧的版权审查,使得对此来源的承认面临阻碍。因此,数据表的使用减少,训练来源的披露不足,导致对训练数据理解的缺乏。这种知识缺口可能导致训练集与测试集之间的数据泄露、个人可识别信息(PII)暴露、意外偏见或行为,最终导致模型质量低于预期。此外,这些缺口还带来了显著的伦理和法律风险,比如模型发布和数据使用条款之间的冲突。考虑到训练数据的高昂成本和较大不可逆性,这些挑战并不容易解决。

2023年对训练数据集的审查加强

2023年,媒体广泛报道了与数据来源及训练数据集透明性相关的问题。例如,3月份,Lightning AI首席执行官William Falcon批评OpenAI的GPT-4论文“伪装成研究”,强调其缺乏重要细节。报告的“范围和局限性”部分特别指出,由于与大型模型(如GPT-4)相关的竞争和安全问题,缺少有关架构、数据集构建和训练方法的信息。

9月份,关于生成AI训练数据的版权问题发表了一项详细分析。分布式AI研究院(DAIR)研究主任Dr. Alex Hanna指出,生成AI的快速普及引发了对未经同意收集的版权内容使用的重大担忧。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles