Apple, NVIDIA y Anthropic acusados de uso no autorizado de transcripciones de YouTube para entrenar modelos de IA.

Recientemente, una encuesta de Proof News reveló que varias grandes empresas tecnológicas a nivel mundial han utilizado un conjunto de datos de más de 173,000 transcripciones de videos de YouTube sin permiso para entrenar sus modelos de inteligencia artificial. Este conjunto de datos, creado por la organización sin fines de lucro EleutherAI, incluye transcripciones de videos de más de 48,000 canales, con empresas como Apple, NVIDIA y Anthropic entre las que lo utilizan. Esta investigación pone de relieve un problema crítico: muchos conjuntos de datos fundamentales para las tecnologías de IA han sido utilizados sin el consentimiento o la justa compensación de los creadores de contenido.

Aunque el conjunto de datos no contiene los videos o imágenes reales de YouTube, incluye transcripciones de creadores reconocidos como Marques Brownlee y MrBeast, así como contenido de importantes organizaciones de medios como The New York Times, BBC y ABC News. También se incluye contenido de Engadget.

Marques Brownlee expresó sus preocupaciones en la plataforma de redes sociales X, afirmando: "Apple obtiene datos de IA de varias empresas, incluyendo una cantidad significativa de texto transcrito extraído de videos de YouTube, incluyendo los míos." Enfatizó: "Este ha sido un problema persistente."

Un portavoz de Google reiteró a Engadget que los comentarios realizados por el CEO de YouTube, Neal Mohan, siguen siendo relevantes; utilizar datos de YouTube para entrenar modelos de IA viola los términos de servicio de la plataforma. Ni Apple, NVIDIA, Anthropic, ni EleutherAI respondieron a las consultas de Engadget.

La falta de transparencia en torno a los datos utilizados por las empresas de IA para el entrenamiento de modelos sigue siendo una preocupación significativa. Recientemente, artistas y fotógrafos criticaron a Apple por no revelar las fuentes de datos de entrenamiento de su próxima tecnología de IA generativa, Apple Intelligence, que se implementará en millones de dispositivos de Apple.

Como la plataforma de video en línea más grande, YouTube no solo ofrece datos de transcripción, sino que también proporciona contenido de audio y video, convirtiéndose en un recurso invaluable para el entrenamiento de IA. A principios de este año, la directora de tecnología de OpenAI, Mira Murati, evitó preguntas en una entrevista con The Wall Street Journal sobre si se utilizaron videos de YouTube para entrenar la herramienta de IA de la compañía, Sora, insistiendo en que los datos utilizados eran de acceso público o licenciados. El CEO de Alphabet, Sundar Pichai, también ha declarado que entrenar modelos de IA con datos de YouTube violaría los términos de servicio de la plataforma.

Para verificar si la transcripción de un canal o video específico está incluida en el conjunto de datos mencionado, visite la herramienta de consulta de Proof News.

Most people like

Find AI tools in YBX