En una reciente entrevista con los medios, el CEO de YouTube, Neal Mohan, abordó las preocupaciones sobre los datos de entrenamiento utilizados por el modelo de generación de video de OpenAI, Sora. Mohan afirmó que, aunque no hay evidencia directa de que OpenAI haya utilizado videos de YouTube para entrenar sus modelos, hacerlo violaría los términos de servicio de YouTube.
Mohan destacó que los creadores de contenido conservan derechos específicos al subir videos, incluyendo el uso razonable y la protección de su contenido. Según el acuerdo de servicio de YouTube, descargar y utilizar segmentos de video para el entrenamiento de IA sin autorización está explícitamente prohibido, ya que estas acciones socavan la confianza entre los creadores y la plataforma.
Curiosamente, mientras Mohan expresaba su preocupación por OpenAI, reconoció que la empresa matriz de YouTube, Google, había utilizado contenido de YouTube para entrenar su propio modelo de IA, Gemini, pero aclaró que obtuvieron permiso de los creadores y cumplieron con los contratos relevantes antes de la utilización. Esto sugiere que OpenAI puede no haber seguido los mismos procesos de autorización para el uso de datos.
OpenAI ha sido ambiguo en cuanto a las fuentes de los datos de entrenamiento del modelo Sora. Mira Murati, directora de tecnología de la compañía, no confirmó si se utilizaron videos de YouTube, indicando únicamente que podrían estar incluidos videos legalmente accesibles y públicamente disponibles, aunque sin certeza.
Esta situación ha desatado un amplio debate sobre el cumplimiento del uso de datos en el entrenamiento de modelos de IA. A medida que las tecnologías de IA evolucionan, garantizar la legalidad de los datos, respetar los derechos de los creadores y cumplir con normativas e estándares de la industria se ha convertido en un punto focal dentro del sector.
Como una de las plataformas de video más grandes del mundo, la postura de YouTube sobre los derechos de autor y el uso de datos es significativa. Las declaraciones de Mohan envían un mensaje claro: el uso no autorizado de videos de YouTube para el entrenamiento de modelos de IA enfrentará estrictas repercusiones.
Consecuentemente, OpenAI debe considerar detenidamente los problemas de cumplimiento relacionados con los datos de entrenamiento. Esto sirve como un recordatorio para otras empresas de IA e instituciones de investigación sobre la importancia de respetar los derechos de autor y la privacidad de los datos al utilizar información pública para el entrenamiento de modelos, asegurando un desarrollo de IA sostenible y responsable.