ByteDance, la empresa matriz de TikTok, supuestamente está en violación de los términos de servicio de OpenAI al utilizar su tecnología para crear modelos de lenguaje grandes competidores. Según informa The Verge, ByteDance está aprovechando la API de OpenAI para recopilar datos para el desarrollo de su propio modelo fundamental, actualmente conocido como Project Seed. Con una historia de innovación en IA generativa, los investigadores de ByteDance se han centrado en sofisticados modelos de generación en 3D.
Las políticas de OpenAI prohíben explícitamente el uso de los resultados de modelos como GPT-4 para crear sistemas rivales. Sin embargo, ByteDance estaría accediendo a la tecnología de OpenAI a través de Microsoft, un proveedor que también tiene restricciones similares, y se informa que ha estado maximizando constantemente su uso de la API. Los informes indican que la API ha sido fundamental en las fases de desarrollo de Project Seed, incluyendo el entrenamiento y la evaluación del modelo.
Según información obtenida por The Verge, discusiones entre empleados en Lark, la plataforma de mensajería interna de ByteDance, revelaron esfuerzos por “blanquear” evidencia del supuesto uso indebido de la tecnología de OpenAI. Se dice que los desarrolladores de la compañía, en su mayoría ubicados en China, han enmascarado su uso de la API de OpenAI mediante técnicas de desensibilización de datos, normalmente empleadas para proteger información sensible empresarial o personal.
En respuesta a estas acusaciones, OpenAI confirmó que se ha suspendido el acceso de ByteDance a su cuenta de ChatGPT mientras se lleva a cabo una investigación. Un portavoz de ByteDance enfatizó el compromiso de la empresa con las directrices de uso de OpenAI, afirmando: "Utilizamos GPT para mejorar productos y funciones en mercados fuera de China, mientras que nuestro modelo de desarrollo propio alimenta a Doubao, que es exclusivo de China."
Doubao es el sistema de IA conversacional de ByteDance que facilita las interacciones con los usuarios a través de imágenes y texto. El portavoz alegó que un grupo limitado de ingenieros había utilizado anteriormente la API de OpenAI para "un pequeño modelo experimental interno que nunca se lanzó." Esta práctica se detuvo en abril, con nuevos protocolos internos establecidos para asegurar que el texto generado por modelos GPT no se integrara en los conjuntos de datos de entrenamiento de los modelos propios de ByteDance.
Además, ByteDance indicó que su equipo de ingeniería ahora usa la API de GPT de manera restringida durante los procesos de evaluación y prueba, como la comparación de puntuaciones. La empresa ha implementado medidas para garantizar la conformidad, que incluyen la realización de muestreo por lotes y la comparación de la similitud de sus datos etiquetados con las salidas de OpenAI para mitigar el riesgo de uso inapropiado por parte de los anotadores de datos.
A raíz del aumento en la popularidad de ChatGPT, importantes empresas tecnológicas chinas, incluidas ByteDance, Baidu y Alibaba, han estado compitiendo para desarrollar sus propios modelos de lenguaje grandes. Recientemente, China presentó un nuevo superordenador diseñado para reforzar los esfuerzos locales en el entrenamiento de modelos de IA, subrayando aún más el paisaje competitivo en el sector de la inteligencia artificial.