À la suite des révélations explosives de fin d'année dernière selon lesquelles le New York Times, l'un des journaux les plus emblématiques au monde, poursuit OpenAI et son partenaire Microsoft pour violation de droits d'auteur, OpenAI a réagi publiquement par un article de blog affirmant que cette poursuite est “sans fondement”.
“Nous soutenons le journalisme, collaborons avec des organisations d'information, et croyons que la poursuite du New York Times est sans fondement”, débute le billet de blog.
OpenAI met en avant trois points clés :
1. Nous collaborons avec des organisations d'information, créant ainsi de nouvelles opportunités.
2. Nos pratiques de formation relèvent de l'usage équitable, et nous offrons une option de désinscription, car c'est juste.
3. Les cas de “regurgitation” des données d'entraînement sont rares, et nous travaillons activement à les éliminer.
Ces affirmations sont détaillées dans le billet.
La question centrale concerne les accords de licence de contenu d'OpenAI avec d'autres entités médiatiques, y compris Axel Springer (éditeur de Politico et Business Insider) et l'Associated Press, en contraste avec sa précédente position sur le scraping des sites web publics pour les données d'entraînement, qui comprend le contenu utilisé par GPT-3.5 et GPT-4 qui alimentent ChatGPT.
Depuis la conférence des développeurs DevDay en novembre 2023, OpenAI a offert une indemnisation—fournissant des protections juridiques aux organisations utilisant ses produits d'IA.
Comment en sommes-nous arrivés là ?
Le NYT a engagé la poursuite fin décembre 2023 devant le tribunal de district du sud de New York. Le journal affirme qu'OpenAI a formé ses modèles sur des articles protégés par des droits d'auteur sans autorisation ni compensation appropriées, citant des exemples précis où ChatGPT a généré des textes ressemblant de près à des articles du NYT, ce qui, selon eux, constitue une violation directe des droits d'auteur.
Cette action en justice a suivi des mois de négociations infructueuses entre OpenAI et les représentants du NYT concernant un accord de licence de contenu.
OpenAI soutient que l'utilisation de matériaux disponibles publiquement sur Internet relève de l'usage équitable, une position soutenue par des précédents juridiques établis. La société affirme avoir mis en place un processus simple de désinscription pour les éditeurs, que le New York Times a utilisé en août 2023, leur permettant de restreindre l'accès à leur site web.
Cependant, les critiques soulignent que ce mécanisme de désinscription n’a été introduit qu'après le lancement de ChatGPT en novembre 2022, laissant peu d’opportunités aux éditeurs de protéger leurs données avant cette date.
OpenAI accuse également le NYT de “manipuler intentionnellement des requêtes” pour démontrer des preuves de reproduction d'articles en violation des conditions de service d'OpenAI. La société affirme que les exemples fournis par le NYT impliquaient des requêtes manipulées, y compris de longs extraits d'articles, entraînant des réponses de manière disproportionnée semblables au contenu du NYT.
Malgré ces allégations, un porte-parole de Trident DMG, représentant le NYT, a réitéré la position du journal. Ian Crosby, avocat principal du New York Times, a déclaré : “Le blog reconnaît qu'OpenAI a utilisé le travail du Times pour construire ChatGPT. Ce n'est pas un usage équitable en aucune mesure.”
Alors que l'affaire évolue, OpenAI et le New York Times présenteront leurs arguments devant le juge du tribunal de district fédéral Sidney H. Stein. Bien que la date de la première audience ne soit pas encore connue, d'autres procédures juridiques devraient enrichir le débat en cours sur l'utilisation par l'IA de matériel protégé par des droits d'auteur.
Avec la multiplication des exemples de services d'IA reproduisant du contenu protégé, y compris le générateur d'images IA Midjourney, qui a fait face à des défis juridiques, l'année 2024 se profile comme une année déterminante pour la technologie IA et ses implications juridiques concernant les sources de données d'entraînement.