Alors que la technologie de l'intelligence artificielle (IA) continue de progresser rapidement, les données sont devenues un moteur essentiel dans le développement des modèles d'IA. Cependant, un rapport récent du Wall Street Journal met en lumière des défis sans précédent rencontrés par les entreprises d'IA dans l'acquisition de données d'entraînement de haute qualité. Aujourd'hui, le New York Times explore plus en détail les stratégies mises en place par ces entreprises pour faire face à cette problématique complexe, notamment les subtilités des lois sur les droits d'auteur en matière d'IA.
OpenAI, un leader dans le secteur de l'IA, a un besoin particulièrement pressant en matière de données d'entraînement. Selon des sources, l'entreprise a transcrit plus d'un million d'heures de vidéos YouTube pour développer son modèle de langage avancé GPT-4, en utilisant sa technologie de transcription audio Whisper. OpenAI a également agrégé diverses autres ressources de données, notamment du code provenant de GitHub, des bases de données de mouvements d'échecs et du contenu éducatif de Quizlet.
Cette approche a suscité des controverses juridiques. Alors qu'OpenAI affirme que son utilisation des données respecte les principes de l'utilisation équitable, le Times révèle que le président d'OpenAI, Greg Brockman, a été personnellement impliqué dans le processus de collecte de données, compliquant davantage les problèmes de droits d'auteur.
Dans une interview avec The Verge, un porte-parole d'OpenAI a déclaré que l'entreprise orchestre des ensembles de données uniques pour chaque modèle, visant à améliorer sa compréhension du monde et à maintenir une recherche compétitive à l'échelle mondiale. Le porte-parole a également mentionné qu'OpenAI envisage de générer des données synthétiques pour réduire sa dépendance vis-à-vis des sources de données externes.
Google a exprimé des préoccupations concernant les pratiques d'OpenAI, un porte-parole notant par e-mail que l'entreprise a constaté des rapports non vérifiés concernant les activités d'OpenAI, en insistant sur le fait que le fichier robots.txt de Google et ses conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé de contenu YouTube.
Neal Mohan, le PDG de YouTube, a récemment indiqué lors d'une interview que bien qu'il n'y ait pas de preuve directe qu'OpenAI ait utilisé des vidéos YouTube pour entraîner le modèle Sora, de telles actions violeraient les conditions d'utilisation de YouTube.
Parallèlement, Meta fait face à ses propres défis concernant la disponibilité des données. Selon le Times, alors que l'équipe d'IA de Meta s'efforce de rattraper OpenAI, elle envisage des scénarios impliquant l'utilisation non autorisée d'œuvres protégées par des droits d'auteur. Pour élargir ses ensembles de données, Meta a examiné un large éventail de livres, essais, poèmes et articles d'actualité en langue anglaise, discutant de potentielles compensations pour la licence de livres ou de l'acquisition directe de grands éditeurs.
Ces développements soulignent les défis juridiques et éthiques auxquels l'industrie de l'IA est confrontée en matière de collecte et d'utilisation des données. Alors que la technologie progresse, se pose la question urgente : comment les modèles d'IA peuvent-ils évoluer tout en respectant les protections du droit d'auteur ? À l'avenir, il est essentiel que les entreprises d'IA et les organismes de régulation collaborent pour établir des réglementations plus claires et équitables qui favorisent le développement sain et durable de la technologie de l'IA.