字節跳動,抖音的母公司,據報導違反了OpenAI的服務條款,利用其技術創建競爭性的大型語言模型。根據《The Verge》的報導,字節跳動正在利用OpenAI的API收集數據,以開發目前稱為「Project Seed」的基礎模型。字節跳動在生成AI領域的創新歷程中,其研究人員專注於複雜的3D生成模型。
OpenAI的政策明確禁止利用像GPT-4這樣的模型輸出來創建競爭系統。然而,字節跳動被指控通過微軟獲得OpenAI的技術訪問,而微軟也有類似的限制,報導稱字節跳動一直在不斷地超出API使用限制。報導指出,該API在Project Seed的開發階段中發揮了關鍵作用,涵蓋了模型的訓練和評估。
根據《The Verge》獲得的信息,字節跳動員工在其內部通訊平台Lark上的討論揭示了該公司試圖“掩蓋”其涉嫌濫用OpenAI技術的證據。據說公司位於中國的開發人員通過數據去敏感化技術來隱藏使用OpenAI API的情況,這通常用來保護敏感的商業或個人信息。
對於這些指控,OpenAI確認已暫停字節跳動訪問其ChatGPT賬戶的權限,目前正在進行調查。字節跳動的發言人強調該公司遵循OpenAI使用指南的承諾,指出:“我們利用GPT提升在中國以外市場的產品和功能,同時我們自研的模型為中國獨有的Doubao提供支持。”
Doubao是字節跳動的對話式AI系統,透過圖像和文本促進用戶互動。發言人聲稱,有限的工程師團隊曾經使用OpenAI的API進行一個“內部小型實驗模型,但從未推出”。這一做法據報導在四月已經停止,並建立了新的內部流程,以確保GPT模型生成的文本不會進入字節跳動專有模型的訓練數據集。
此外,字節跳動表示其工程團隊目前主要在有限的範圍內使用GPT API,主要用於評估和測試過程中的分數基準。公司已實施合規措施,包括進行批量抽樣和比較其標記數據與OpenAI輸出之間的相似性,以減少數據標註者不當使用的風險。
隨著ChatGPT的流行,字節跳動、百度和阿里巴巴等中國科技公司正在爭相開發各自的語言模型。最近,中國推出了一個新的超級計算機,旨在加強本地AI模型訓練的努力,進一步突顯人工智能領域的競爭格局。