Apple, NVIDIA y Anthropic Supuestamente Usaron Transcripciones de YouTube Sin Consentimiento para el Entrenamiento de Modelos de IA

Una investigación de Proof News ha revelado que algunas de las mayores empresas tecnológicas, como Apple, NVIDIA y Anthropic, entrenaron sus modelos de IA utilizando un conjunto de datos que incluye transcripciones de más de 173,000 videos de YouTube, sin obtener el permiso de los creadores. Este conjunto de datos, compilado por la organización sin fines de lucro EleutherAI, contiene transcripciones de canales que representan a más de 48,000 creadores, incluyendo figuras destacadas como Marques Brownlee y MrBeast, así como importantes organizaciones de noticias como The New York Times, BBC y ABC News.

La investigación pone de manifiesto una preocupante realidad en el desarrollo de la IA: gran parte de la tecnología depende de datos extraídos de creadores sin su consentimiento o compensación. Aunque el conjunto de datos no incluye videos ni imágenes, sí incorpora contribuciones significativas de influyentes creadores de contenido.

Marques Brownlee expresó su preocupación en las redes sociales, señalando que Apple obtuvo datos de diversas empresas, una de las cuales recolectó transcripciones de videos de YouTube, incluido el suyo. Afirma: “Este será un problema en evolución durante mucho tiempo”, reconociendo el complejo paisaje ético que rodea el uso de datos en la IA.

Un portavoz de Google reiteró que las declaraciones del CEO de YouTube, Neal Mohan, sobre la violación de los términos de servicio de la plataforma por parte de empresas que usan datos de YouTube para el entrenamiento de IA siguen vigentes. Los intentos de obtener comentarios de Apple, NVIDIA, Anthropic y EleutherAI no han tenido respuesta.

La transparencia respecto a los datos de entrenamiento utilizados por las empresas de IA sigue siendo un tema esquivo. Recientemente, Apple fue criticada por artistas y fotógrafos por no revelar la fuente de los datos de entrenamiento para su próxima función de IA generativa, Apple Intelligence. En respuesta, Apple aclaró que su modelo OpenELM—creado estrictamente para investigación—no alimenta sus capacidades de IA o aprendizaje automático. La empresa afirmó que sus modelos de IA se entrenan con "datos licenciados" y con información de dominio público recopilada por arañas web.

YouTube, como el mayor repositorio de videos del mundo, proporciona una abundante cantidad de transcripciones, audios, videos e imágenes, convirtiéndolo en un recurso atractivo para el desarrollo de modelos de IA. A principios de este año, la CTO de OpenAI, Mira Murati, evitó responder si se utilizaron videos de YouTube para entrenar Sora, la próxima herramienta de generación de video de IA de OpenAI, afirmando que los datos eran de acceso público o licenciados.

Si estás interesado en averiguar si los subtítulos de tus videos de YouTube o los de tus canales favoritos están incluidos en este conjunto de datos, visita la herramienta de búsqueda de Proof News.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles