Dans une tendance préoccupante au sein de l'industrie, NVIDIA aurait récolté d'importantes quantités de contenu protégé par des droits d'auteur pour ses initiatives de formation en intelligence artificielle. Ce lundi, Samantha Cole de 404 Media a rapporté que le géant technologique, évalué à 2,4 billions de dollars, aurait demandé à ses employés de télécharger des vidéos sur des plateformes comme YouTube et Netflix pour alimenter ses projets commerciaux d'IA. Cette action reflète une mentalité générale du type "aller vite et casser des choses" parmi les entreprises technologiques en quête de domination dans le secteur de l'IA, particulièrement volatile.
Les efforts de formation se seraient concentrés sur la création de modèles pour le générateur de monde 3D Omniverse de NVIDIA, les systèmes de véhicules autonomes, et les technologies de "humains numériques". Un porte-parole a affirmé que la recherche de l'entreprise respecte la législation sur les droits d'auteur, soutenant que les lois sur la propriété intellectuelle (PI) ne protègent que des expressions spécifiques, et non des faits, des idées ou des données. Ils ont comparé cette pratique au droit d'un individu d'apprendre de diverses sources pour créer de nouvelles expressions.
Cependant, YouTube n'est pas d'accord. Le porte-parole Jack Malon a cité un article d'avril de Bloomberg dans lequel le PDG Neal Mohan a déclaré que l'utilisation de vidéos YouTube pour la formation en IA violerait clairement les conditions d'utilisation de la plateforme. Cette déclaration fait suite à des controverses antérieures où OpenAI avait formé son générateur de texte à vidéo Sora sur du contenu YouTube sans autorisation. Dans le même registre, des rapports récents ont indiqué que Runway AI avait engagé des pratiques comparables.
Des employés de NVIDIA ayant exprimé des préoccupations éthiques et légales auraient été informés par la direction que l'initiative avait été approuvée aux plus hauts niveaux de l'entreprise. Ming-Yu Liu, vice-président de la recherche, a souligné que "c'est une décision exécutive" et a confirmé qu'ils avaient "une approbation générale pour toutes les données." D'autres au sein de l'entreprise ont qualifié cette pratique de "problème légal ouvert" à traiter ultérieurement.
Cette situation rappelle le vieux mantra de Facebook (Meta), qui a également prospéré en franchissant des frontières, notamment en matière de vie privée des utilisateurs. En plus du contenu provenant de YouTube et de Netflix, NVIDIA aurait également demandé à son personnel de se former sur des ensembles de données tels que MovieNet, des bibliothèques de jeux vidéo internes, et des dépôts GitHub comme WebVid (désormais supprimé après une cessation et des desistements) et InternVid-10M, ce dernier contenant 10 millions d'ID de vidéos YouTube.
Certaines des données que NVIDIA aurait utilisées étaient réservées à un usage académique ou non commercial. Par exemple, la bibliothèque HD-VG-130M de 130 millions de vidéos YouTube comprend une licence d'utilisation la limitant à la recherche académique. Malgré cela, NVIDIA aurait écarté les préoccupations concernant ces conditions académiques, affirmant que les données étaient libres de droits pour ses ambitions commerciales en IA.
Pour éviter d'être détectée par YouTube, NVIDIA aurait utilisé des machines virtuelles (VM) avec des adresses IP tournantes pour les téléchargements. Lorsqu'un employé a suggéré d'utiliser un outil de rotation d'adresses IP tiers, un autre a répondu que "le redémarrage d'une instance de machine virtuelle donne une nouvelle adresse IP publique," indiquant que la détection n'était pas un problème.