L'entreprise d'IA Runway aurait extrait "des milliers" de vidéos YouTube et piraté des films protégés par des droits d'auteur sans autorisation adéquate. Le média d'investigation 404 Media a obtenu des feuilles de calcul internes indiquant que cette startup, spécialisée dans la génération de vidéos par IA, a entraîné son modèle Gen-3 en utilisant du contenu provenant de chaînes détenues par de grandes entités comme Disney, Netflix, et Pixar.
Un ancien employé anonyme de Runway a révélé que ces feuilles de calcul servaient à identifier des vidéos pour la base de données de l’entreprise, qui étaient ensuite téléchargées clandestinement à l'aide de logiciels proxy open-source. Une feuille contenait des mots-clés simples—comme "astronaute", "fée", et "arc-en-ciel"—avec des annotations sur la disponibilité de vidéos de qualité pour l'entraînement. Par exemple, le mot-clé "super-héros" comportait une note précisant : "Beaucoup de clips de films." D'autres annotations indiquaient que des chaînes axées sur Unreal Engine, le cinéaste Josh Neuman, et une page de fans de Call of Duty étaient considérées comme d'excellentes sources de vidéos "à fort mouvement".
"Les chaînes dans cette feuille représentaient un effort collectif pour découvrir des vidéos de qualité pour le développement du modèle," a déclaré l'ancien employé. "Cela a conduit à la création d'un puissant robot d'exploration qui téléchargeait des vidéos de toutes les chaînes répertoriées, en utilisant des proxys pour échapper à la détection de Google."
La feuille de calcul incluait près de 4 000 chaînes YouTube signalées comme "recommandées", contenant du contenu de CBS New York, AMC Theaters, Pixar, Disney Plus, et même de l'Aquarium de Monterey Bay. Runway aurait également constitué une liste distincte de vidéos provenant de sites de piratage, avec une feuille intitulée "Source Non-YouTube", présentant des liens vers des archives non autorisées de films du Studio Ghibli et diverses plateformes de piratage d’anime et de films.
Pour valider davantage les allégations d'utilisation de données non approuvées, 404 Media a découvert que l'entrée des noms de YouTubers populaires figurant dans la feuille produisait des résultats extrêmement similaires. En revanche, l'utilisation des mêmes noms avec le modèle Gen-2 plus ancien de Runway—entraîné sur des données différentes—faisait apparaître des résultats non pertinents, tels que des images génériques d'hommes en costume. Notamment, après que 404 Media ait posé des questions sur la ressemblance des YouTubers dans les résultats, l'outil d'IA a cessé totalement de générer ces ressemblances.
"J'espère que partager cette information aidera les gens à comprendre l'ampleur de ces entreprises et leurs méthodes pour générer des vidéos 'cool'," a déclaré l'ancien employé.
Contacté pour un commentaire, un représentant de YouTube a cité une interview d'avril avec le PDG Neal Mohan, qui a qualifié l'utilisation de leurs vidéos d'une "violation claire" des conditions d'utilisation de YouTube. "Nos précédents commentaires à ce sujet demeurent," a-t-il déclaré. Runway n'a pas répondu à la demande de commentaire avant la date limite de la publication.
Alors que le paysage de l'IA continue d'évoluer, certaines entreprises peuvent chercher à établir une domination sur le marché avant que les consommateurs et les systèmes juridiques ne comprennent pleinement les implications de leurs pratiques. Bien que l'entraînement avec permission par le biais de contrats de licence soit une approche—adoptée par des entreprises comme OpenAI—le scraping d'Internet pour des matériaux protégés par des droits d'auteur représente une stratégie beaucoup plus controversée, voire illégale, dans la course au profit et à la suprématie technologique.