A medida que la tecnología de inteligencia artificial (IA) avanza rápidamente, los datos se han convertido en un motor crucial en el desarrollo de modelos de IA. Sin embargo, un reciente informe del Wall Street Journal destaca los desafíos sin precedentes que enfrentan las empresas de IA para adquirir datos de entrenamiento de alta calidad. Hoy, The New York Times explora las estrategias que utilizan estas compañías para abordar este complicado tema, en particular las complejidades de las leyes de derechos de autor en IA.
OpenAI, un líder en el sector de la IA, presenta una necesidad urgente de datos de entrenamiento. Según informes, la empresa ha transcrito más de un millón de horas de videos de YouTube para desarrollar su avanzado modelo de lenguaje GPT-4, utilizando su tecnología de transcripción de audio Whisper. OpenAI también ha recopilado diversas fuentes de datos, incluidos códigos de GitHub, bases de datos de movimientos de ajedrez y contenido educativo de Quizlet.
Este enfoque ha desatado controversias legales. Mientras OpenAI asegura que su uso de datos se ajusta a los principios de uso justo, The Times revela que el presidente de OpenAI, Greg Brockman, participó personalmente en el proceso de recopilación de datos, complicando aún más las cuestiones de derechos de autor.
En una entrevista con The Verge, un portavoz de OpenAI afirmó que la compañía organiza conjuntos de datos únicos para cada modelo, con el objetivo de mejorar su comprensión del mundo y mantener una investigación competitiva a nivel global. El portavoz también mencionó que OpenAI está explorando la generación de datos sintéticos para reducir su dependencia de fuentes externas.
Google ha expresado preocupaciones sobre las prácticas de OpenAI; un portavoz señaló por correo electrónico que la compañía ha observado informes no verificados respecto a las actividades de OpenAI, enfatizando que el archivo robots.txt de Google y los términos de servicio prohíben la recolección o descarga no autorizada de contenido de YouTube.
El CEO de YouTube, Neal Mohan, indicó en una entrevista reciente que, si bien no hay evidencia directa de que OpenAI utilizara videos de YouTube para entrenar el modelo Sora, tales acciones violarían los términos de servicio de YouTube.
Al mismo tiempo, Meta enfrenta sus propios desafíos en la disponibilidad de datos. Según The Times, mientras el equipo de IA de Meta se esfuerza por alcanzar a OpenAI, está considerando escenarios que involucran el uso no autorizado de obras protegidas por derechos de autor. Para ampliar sus conjuntos de datos, Meta ha revisado una vasta gama de libros, ensayos, poesía y artículos periodísticos en inglés, discutiendo posibles pagos por licencias de libros o la adquisición directa de grandes editoriales.
Estos desarrollos subrayan los retos legales y éticos que enfrenta la industria de IA en la recopilación y uso de datos. A medida que la tecnología avanza, surge la pregunta urgente: ¿cómo pueden evolucionar los modelos de IA respetando las protecciones de derechos de autor? Para avanzar, es esencial que las empresas de IA y los organismos reguladores colaboren en el establecimiento de regulaciones más claras y justas que fomenten el desarrollo saludable y sostenible de la tecnología de IA.