OpenAI a annoncé aujourd'hui plusieurs mises à jour importantes, dont la plus notable est le futur "Media Manager", prévu pour 2025. Cet outil novateur permettra aux créateurs de gérer leur contenu, en spécifiant les œuvres qui peuvent être utilisées pour l'entraînement de l'IA et celles qui doivent rester exclues.
Comme précisé dans un article de blog sur le site d'OpenAI, Media Manager a pour objectif de :
"Permettre aux créateurs et aux propriétaires de contenu d'identifier ce qu'ils possèdent et de dicter comment leurs œuvres doivent être utilisées dans la recherche sur l'apprentissage automatique. Nous visons à intégrer davantage de fonctionnalités au fil du temps."
Cet outil pionnier exploitera des recherches avancées en apprentissage automatique pour identifier les textes, images, sons et vidéos protégés par le droit d'auteur sur diverses plateformes, garantissant ainsi le respect des préférences des créateurs. OpenAI collabore étroitement avec les créateurs, les propriétaires de contenu et les régulateurs durant son développement, avec l'objectif d'établir des normes industrielles d'ici 2025.
Bien que les détails de tarification ne soient pas encore disponibles, on s'attend à ce que l'outil soit gratuit, OpenAI se positionnant comme un leader éthique dans le développement de l'IA.
Pourquoi Media Manager est essentiel
Media Manager vise à renforcer la protection des créateurs contre le scraping de données par l'IA non autorisé, allant au-delà de l'ancienne méthode de configuration d'un fichier robots.txt ("User-agent: GPTBot Disallow: /"), mise en place par OpenAI en août 2023. De nombreux créateurs partagent leurs œuvres sur des plateformes qu'ils ne contrôlent pas, telles que DeviantArt et Patreon, ce qui limite leur capacité à ajuster les paramètres d'accès. De plus, certains souhaiteraient uniquement exclure des œuvres spécifiques du scraping de données, et Media Manager offrira le contrôle granulaire nécessaire.
OpenAI reconnaît que les solutions actuelles sont insuffisantes, de nombreux créateurs n'ayant pas de contrôle sur l'apparition et l'utilisation de leur contenu en ligne. "Nous reconnaissons que ce sont des solutions incomplètes", indique le blog, soulignant la nécessité d'une méthode plus efficace pour que les propriétaires de contenu puissent communiquer leurs préférences concernant l'utilisation de l'IA.
Répondre aux critiques du scraping de données par l'IA
Cette initiative répond aux préoccupations des artistes visuels et des créateurs de contenu concernant le scraping de données par les entreprises d'IA, y compris OpenAI, sans autorisation ni compensation. De nombreux créateurs ont engagé des actions collectives alléguant des violations de droits d'auteur contre ces entreprises d'IA.
OpenAI soutient que le crawling et le scraping web ont historiquement été des pratiques acceptées sur Internet, en faisant référence à l'adoption généralisée de la norme robots.txt pour guider les crawlers web sur ce qui peut être accessible.
Malgré cela, de nombreux artistes s'opposent désormais à l'entraînement d'IA générative sur leurs œuvres, car cela concurrence directement leurs revenus. OpenAI a également introduit une indemnisation pour ses abonnés payants confrontés à des réclamations pour violation de droits d'auteur, dans le but de rassurer ses clients professionnels.
Contexte juridique et implications futures
Le cadre juridique entourant le scraping de données d'œuvres protégées par le droit d'auteur est encore en évolution. Cependant, indépendamment du résultat légal, OpenAI semble déterminé à se présenter comme une entité éthique vis-à-vis des créateurs de contenu.
De nombreux créateurs pourraient percevoir ces efforts comme insuffisants, étant donné que leur travail a probablement déjà été utilisé pour entraîner des modèles d'IA sans consentement. OpenAI soutient qu'elle ne conserve pas de copies complètes des données récupérées ; elle affirme plutôt générer des modèles basés sur les relations et les processus liés aux données d'entrée.
Comme l'indique OpenAI, "Nos modèles d'IA sont des machines d'apprentissage, pas des bases de données. Ils sont conçus pour créer de nouveaux contenus et idées, et non pour répliquer un contenu existant. Lorsque les modèles répètent parfois du contenu expressif, cela résulte des limites du processus d'apprentissage automatique."
Media Manager a le potentiel de fournir une solution plus conviviale pour le contrôle de l'entraînement de l'IA par rapport aux méthodes existantes telles que Glaze et Nightshade. Cependant, la confiance dans cet outil, compte tenu de l'implication d'OpenAI, et son efficacité face à des modèles concurrents restent à prouver.