バイトダンス(ByteDance)、TikTokの親会社が、競合する大規模言語モデルを作成するためにOpenAIの技術を利用し、OpenAIのサービス利用規約に違反していると報じられています。The Vergeによると、バイトダンスはOpenAIのAPIを活用して自社の基盤モデル「プロジェクト・シード」を開発するためのデータを収集しているとのことです。創造的AIにおける革新の歴史を持つバイトダンスの研究者たちは、洗練された3D生成モデルに注力しています。
OpenAIのポリシーは、GPT-4のようなモデルから得られた出力を競合システムの作成に使用することを明確に禁止しています。しかし、バイトダンスは、同様の制限があるMicrosoftを通じてOpenAIの技術にアクセスしていると言われており、APIの使用については常に限界を超えているとの報告があります。このAPIはプロジェクト・シードの開発段階において、モデルのトレーニングや評価に不可欠な役割を果たしていると伝えられています。
The Vergeの情報によると、バイトダンスの内部メッセージングプラットフォーム「Lark」上での社員の議論から、OpenAIの技術の不正使用の証拠を「隠蔽」しようとする取り組みが明らかになりました。主に中国に配置されている同社の開発者たちは、感度の高いビジネスや個人情報を保護するために使用されるデータの非感度化技術を駆使し、OpenAIのAPIの使用を隠していたとされています。
この allegations に対し、OpenAIはバイトダンスのChatGPTアカウントへのアクセスを調査中のため停止したことを確認しました。バイトダンスの広報担当者はOpenAIの利用ガイドラインを遵守する意志を強調し、「私たちは、中国以外の市場で製品や機能を向上させるためにGPTを利用しており、自社開発のモデルは中国専用で提供されるDoubaoを支えています」と述べました。
Doubaoは、ユーザーとの対話を画像やテキストを通じて促進するバイトダンスの会話AIシステムです。広報担当者は、限られたエンジニアのグループが「内部の小規模な実験モデル」にOpenAIのAPIを使用していたが、これを立ち上げることはなかったと主張しました。こうした実践は4月に中止され、GPTモデルによって生成されたテキストがバイトダンスの独自モデルのトレーニングデータセットに流入しないよう新たな内部プロトコルが設けられました。
さらに、バイトダンスは、現在エンジニアリングチームが評価やテストプロセスにおいて、GPT APIを制限された形で主に使用していることを示しました。新たに導入された措置には、バッチサンプリングや、ラベル付けされたデータのOpenAI出力との類似性を比較することが含まれ、不適切な使用のリスクを軽減するための手段が講じられています。
ChatGPTの急成長の影響を受け、バイトダンスや百度、アリババなどの大手中国テック企業が独自の大規模言語モデルを開発する競争を繰り広げています。最近では、中国がAIモデルのトレーニングを強化するための新しいスパコンを発表し、人工知能セクターにおける競争の激化が際立っています。