NVIDIA Confronté à des Défis Juridiques sur le Contenu Protégé par Copyright dans la Formation de l'IA
Des documents récents divulgués par le média technologique 404Media révèlent qu'NVIDIA a accumulé une quantité substantielle de contenu protégé par droits d'auteur lors de la formation de ses systèmes d'intelligence artificielle (IA). Ces documents, comprenant des emails internes, des conversations Slack et d'autres matériaux connexes, indiquent qu'NVIDIA a puisé des données sur diverses plateformes vidéo, telles que YouTube, pour enrichir ses ensembles de données d'entraînement à l'IA.
Dans ces échanges, des employés impliqués dans le projet ont exprimé leurs inquiétudes quant aux risques juridiques associés à la compilation de jeux de données à partir de vidéos YouTube pour des fins de recherche. Cependant, un chef de projet leur a assuré que cette méthode de collecte de données avait été approuvée par les dirigeants de l'entreprise, affirmant que cette pratique était « pleinement conforme à la lettre et à l'esprit de la loi sur le copyright ».
Selon un employé d'NVIDIA, l'entreprise a donné pour instruction aux équipes de rassembler des vidéos sur des plateformes comme YouTube et Netflix pour former son générateur 3D Omniverse, ses systèmes de conduite autonome et ses produits d'humains numériques. Des rapports suggèrent que le projet, connu en interne sous le nom de "Cosmos", utilise des machines virtuelles avec des adresses IP rotatives pour contourner les mécanismes de détection de contenu de YouTube, évitant ainsi les interdictions.
L'employé a précisé : « Nous utilisons la plateforme AWS, et le redémarrage des instances attribue une nouvelle IP publique, donc ce n'est pas un problème pour l'instant. »
À mesure que la technologie de l'IA progresse, le défi de l'utilisation légale et éthique de contenu protégé par droits d'auteur pour la formation devient une préoccupation majeure pour l'industrie technologique.