La empresa de inteligencia artificial Runway supuestamente extrajo "miles" de videos de YouTube y piratea películas con derechos de autor sin la debida autorización. El medio de investigación 404 Media obtuvo hojas de cálculo internas que indican que la startup de generación de videos con IA entrenó su modelo Gen-3 utilizando contenido de canales pertenecientes a grandes entidades como Disney, Netflix y Pixar.
Un ex-empleado anónimo de Runway reveló que estas hojas de cálculo se usaban para identificar videos destinados a la base de datos de la empresa, que luego se descargaban de manera indetectable utilizando software de proxy de código abierto. Una de las hojas contenía palabras clave simples—como "astronauta", "hada" y "arcoíris"—con anotaciones sobre la disponibilidad de videos de calidad para entrenamiento. Por ejemplo, la palabra clave "superhéroe" incluía una nota que decía: "Muchos clips de películas". Otras anotaciones indicaban que los canales enfocados en Unreal Engine, el cineasta Josh Neuman y una página de fanáticos de Call of Duty eran considerados excelentes fuentes de videos de "alto movimiento" para el entrenamiento.
"Los canales en esa hoja de cálculo representaron un esfuerzo a nivel de la empresa para descubrir videos de calidad para el desarrollo del modelo," afirmó el ex-empleado. "Esto llevó a la creación de un rastreador web masivo que descargaba videos de todos los canales listados, usando proxies para evadir la detección de Google."
La hoja de cálculo incluía casi 4,000 canales de YouTube marcados como "recomendados", que presentaban contenido de CBS New York, AMC Theaters, Pixar, Disney Plus e incluso del Acuario de Monterey. Además, se informó que Runway acumuló una lista separada de videos de sitios de piratería, con una hoja titulada "Fuente no YouTube" que presentaba enlaces a archivos no autorizados de películas de Studio Ghibli y varias plataformas de piratería de anime y películas.
Para validar aún más las afirmaciones de uso no aprobado de datos, 404 Media descubrió que al ingresar los nombres de populares YouTubers listados en la hoja se obtenían resultados notablemente similares. En contraste, al usar los mismos nombres con el modelo Gen-2 de Runway—entrenado con datos diferentes—se producían resultados irrelevantes, como imágenes genéricas de hombres en trajes. Notablemente, después de que 404 Media inquiriera sobre la similitud de los YouTubers en los resultados, la herramienta de IA dejó de generar semejanzas por completo.
"Espero que compartir esta información ayude a la gente a comprender la magnitud de estas empresas y sus métodos para generar videos 'geniales'," comentó el ex-empleado.
Cuando se contactó para un comentario, un representante de YouTube hizo referencia a una entrevista de abril con el CEO Neal Mohan, quien caracterizó el entrenamiento de sus videos como una "clara violación" de los términos de YouTube. "Nuestros comentarios anteriores sobre esto siguen vigentes," afirmó. Runway no respondió a la solicitud de comentario antes de la fecha límite de la publicación.
A medida que el panorama de la IA sigue evolucionando, algunas empresas pueden estar esforzándose por establecer un dominio en el mercado antes de que los consumidores y los sistemas legales comprendan completamente las implicaciones de sus prácticas. Si bien entrenar con permiso a través de acuerdos de licencia es un enfoque—adoptado por empresas como OpenAI—extraer contenido de internet que tiene derechos de autor representa una estrategia mucho más controvertida, si no ilegal, en la carrera por el lucro y la supremacía tecnológica.