OpenAI 正在积极寻求独特的领域特定数据,以提升其人工智能模型的性能,目标是对各类主题和背景有更深入的理解。为此,公司推出了 OpenAI 数据合作伙伴计划,邀请公众参与,收集对训练先进模型(如 GPT-4 及新推出的 GPT-4 Turbo)至关重要的公共和私人数据集。
OpenAI 特别关注策划大规模数据集,以以新的方式反映人类社会,这些数据通常在网上难以获取。该计划涵盖了多种媒体形式,包括文本、图像、音频和视频,重点关注能够体现人类意图的数据集,例如长篇写作或详细对话,而不是零散的数据点。
当前,OpenAI 正与多个实体合作,以提高语言能力。例如,OpenAI 与冰岛政府及 Miðeind ehf. 合作开发专门的数据集,旨在提升 GPT-4 对冰岛语的处理能力。此外,与自由法律项目的合作则旨在通过其丰富的法律文件库,增强 AI 训练,帮助民主化法律知识的获取。
数据合作伙伴计划的目标是让更多组织能够影响 AI 技术的发展,使其更具相关性和实用性,基于他们贡献的内容。这一合作努力强调了与反映人类经验复杂性及社会需求的多样化数据集合作的重要性。
然而,OpenAI 对数据收集遵循伦理实践。该组织已明确表示,不打算将敏感个人信息或第三方数据包含在数据集中。相反,重点在于创建一个开放源代码的数据集,以便更广泛的 AI 社区使用,同时也可能为专用应用准备私人数据集。
除了数据倡议外,OpenAI 首席执行官 Sam Altman 最近还宣布计划与企业客户合作,开发定制的 AI 模型。尽管他提到这些服务初期可能对许多公司而言并不实惠,但他强调,如果愿意投资这些定制解决方案,将可能带来突破性的进展。Altman 还指出,自新模型和更新发布以来,关注度激增,导致需求增加以及平台服务的波动。
在相关进展中,OpenAI 确认 ChatGPT 遭遇了 DDoS 攻击,但在两天内恢复了完整功能。这一事件突显了人工智能技术日益受到关注和利用的同时,也面临着如此快速增长和关注带来的挑战。