바이트댄스(ByteDance), 틱톡(TikTok)의 모회사,가 오픈AI(OpenAI)의 서비스 약관을 위반했다는 보도가 나왔습니다. The Verge에 따르면, 바이트댄스는 오픈AI의 API를 활용하여 자체 대형 언어 모델인 프로젝트 시드(Project Seed)를 개발하기 위한 데이터를 수집하고 있습니다. 생성적 AI 분야에서 혁신이 이어지고 있는 바이트댄스의 연구진들은 정교한 3D 생성 모델에 집중하고 있습니다.
오픈AI의 정책은 GPT-4와 같은 모델의 출력물을 이용해 경쟁 시스템을 만드는 것을 명시적으로 금지하고 있습니다. 그러나 바이트댄스는 마이크로소프트를 통해 오픈AI 기술에 접근하고 있으며, API 사용량이 지속적으로 한도를 초과하고 있다고 전해집니다. API는 프로젝트 시드의 모델 훈련과 평가 과정에서 중요한 역할을 했다고 보고되고 있습니다.
The Verge가 입수한 정보에 의하면, 바이트댄스의 내부 메시징 플랫폼인 Lark에서 직원들 간의 논의는 오픈AI 기술 남용에 대한 증거를 "덮으려는" 노력들을 드러냈습니다. 주로 중국에 위치한 회사의 개발자들은 민감한 비즈니스 정보 보호를 위해 사용되는 데이터 비감별화 기법을 통해 오픈AI API의 사용을 숨겼다고 알려집니다.
이러한 주장에 대해 오픈AI는 바이트댄스의 ChatGPT 계정 접근이 조사 중인 동안 중단되었다고 확인했습니다. 바이트댄스 대변인은 오픈AI의 사용 가이드라인을 준수하는 것에 대한 회사의 의지를 강조했습니다. 그들은 "중국 외 시장에서 제품과 기능 향상을 위해 GPT를 활용하고 있으며, 자사 개발 모델은 중국 전용인 Doubao를 지원하고 있습니다."라고 밝혔습니다.
Doubao는 바이트댄스의 대화형 AI 시스템으로, 이미지와 텍스트를 통해 사용자 상호작용을 촉진합니다. 대변인은 한정된 엔지니어 그룹이 "결코 출시되지 않은 내부 소규모 실험 모델"을 위해 오픈AI의 API를 사용했음을 주장하며, 이 관행은 4월에 중단되었으며, GPT 모델로 생성된 텍스트가 바이트댄스의 독점 모델 훈련 데이터셋에 포함되지 않도록 제정된 새로운 내부 프로토콜이 도입되었다고 전했습니다.
바이트댄스는 현재 엔지니어 팀이 주로 평가 및 테스트 과정, 예를 들어 점수 기준 설정에서 GPT API를 제한된 방식으로 사용하고 있다고 밝혔습니다. 회사는 이상적인 사용을 방지하기 위해 배치 샘플링을 수행하고, 라벨링된 데이터와 오픈AI 출력물의 유사성을 비교하는 등 준수 조치를 시행하고 있습니다.
ChatGPT의 인기가 상승함에 따라 바이트댄스, 바이두(Baidu), 알리바바(Alibaba) 등 주요 중국 기술 기업들이 자체 대형 언어 모델 개발 경쟁을 벌이고 있습니다. 최근 중국은 AI 모델 훈련을 강화하기 위한 새로운 슈퍼컴퓨터를 공개하여 인공지능 분야의 경쟁 환경을 더욱 부각시켰습니다.