字节跳动,抖音的母公司,涉嫌违反OpenAI的服务条款,利用其技术开发竞争性的大型语言模型。据《The Verge》报道,字节跳动正通过OpenAI的API收集数据,以创建名为“Project Seed”的基础模型。这家在生成式AI领域拥有创新历史的公司,专注于复杂的3D生成模型。
OpenAI的政策明确禁止使用诸如GPT-4等模型的输出来构建竞争系统。然而,字节跳动被指控通过微软获得对OpenAI技术的访问权限,而微软的政策中也有类似限制。据报道,字节跳动超出了其API的使用限制,开发过程中,该API在“Project Seed”的模型训练和评估中发挥了重要作用。
《The Verge》的报道称,字节跳动员工在内部平台Lark上讨论时,试图“掩盖”公司使用OpenAI技术的证据。位于中国的开发人员 reportedly 通过数据去敏感化技术掩盖对OpenAI API的使用,这种技术通常用于保护商业或个人敏感信息。
对此,OpenAI确认已暂停字节跳动的ChatGPT账户,并正在调查此事。字节跳动的一位发言人表示,公司致力于遵守OpenAI的使用指南,并强调:“我们利用GPT增强中国以外市场的产品,而我们自研的模型只在中国为豆包服务。”
豆包是字节跳动的对话式AI系统,支持用户通过图像和文本进行互动。发言人提到,之前有少量工程师曾使用OpenAI的API进行内部小型实验,已于四月停止,并建立了新的内部协议,确保GPT生成的文本不会被纳入字节跳动的专有模型训练数据。
此外,字节跳动还表示,其工程团队正在有限使用GPT API进行评估和测试,例如评分基准测试。公司已实施多项合规措施,包括进行数据抽样,并与OpenAI的输出进行相似性比较,以降低数据标注者不当使用的风险。
随着ChatGPT的流行,字节跳动、百度和阿里巴巴等中国科技巨头加紧开发自家大型语言模型。近期,中国还推出了一台新的超级计算机,以支持本地AI模型的训练,进一步凸显了激烈的人工智能竞争。