Apple, NVIDIA et Anthropic auraient utilisé des transcriptions YouTube sans consentement pour entraîner leurs modèles d'IA.

Une enquête de Proof News a révélé que certaines des plus grandes entreprises technologiques, dont Apple, NVIDIA et Anthropic, ont formé leurs modèles d'IA à partir d'un ensemble de données comprenant des transcriptions de plus de 173 000 vidéos YouTube—sans obtenir l'autorisation des créateurs. Cet ensemble de données, compilé par l'organisation à but non lucratif EleutherAI, inclut des transcriptions de chaînes représentant plus de 48 000 créateurs, parmi lesquels des figures emblématiques comme Marques Brownlee et MrBeast, ainsi que de grandes organisations de presse telles que The New York Times, BBC et ABC News.

Cette enquête met en lumière une réalité préoccupante dans le développement de l'IA : une grande partie de la technologie repose sur des données extraites de créateurs sans leur consentement ni compensation. Bien que l'ensemble de données ne contienne ni vidéos ni images, il intègre néanmoins des contributions substantielles de créateurs de contenu influents.

Marques Brownlee a exprimé ses préoccupations sur les réseaux sociaux, soulignant qu'Apple s'est procuré des données auprès de diverses entreprises, dont une qui a extraits des transcriptions de vidéos YouTube, y compris les siennes. Il a déclaré : « Ce sera un problème évolutif pendant longtemps », reconnaissant le paysage éthique complexe entourant l'utilisation des données en IA.

Un porte-parole de Google a réitéré que les déclarations du PDG de YouTube, Neal Mohan, concernant la violation des conditions d'utilisation de la plateforme par les entreprises exploitant les données de YouTube pour l'entraînement des IA restent valables. Les tentatives répétées d'obtenir des commentaires d'Apple, NVIDIA, Anthropic et EleutherAI sont restées sans réponse.

La transparence concernant les données d'entraînement utilisées par les entreprises d'IA demeure un défi. Récemment, Apple a fait face à des critiques d'artistes et de photographes pour ne pas avoir divulgué la source des données d'entraînement de sa nouvelle fonctionnalité d'IA générative, Apple Intelligence. En réponse, Apple a précisé que son modèle OpenELM—créé strictement pour la recherche—ne propulse pas ses capacités d'IA ou d'apprentissage automatique. L'entreprise affirme que ses modèles d'IA sont formés sur des données « sous licence » et des informations disponibles publiquement collectées par des robots d'exploration.

YouTube, en tant que plus grande plateforme vidéo au monde, fournit une abondance de transcriptions, audio, vidéo et images, ce qui en fait une ressource attrayante pour le développement de modèles d'IA. Plus tôt cette année, la directrice technique d'OpenAI, Mira Murati, a évité de répondre aux questions concernant l'utilisation de vidéos YouTube pour former Sora, le prochain outil de génération vidéo d'OpenAI, affirmant que les données étaient soit disponibles publiquement, soit sous licence.

Pour ceux qui souhaitent déterminer si les sous-titres de vos vidéos YouTube ou de celles de vos chaînes préférées sont inclus dans cet ensemble de données, visitez l'outil de recherche de Proof News.

Most people like

Find AI tools in YBX