Das KI-Unternehmen Runway soll "tausende" YouTube-Videos und urheberrechtlich geschützte Filme ohne die erforderliche Genehmigung verwendet haben. Das investigative Medium 404 Media hat interne Tabellen erhalten, die darauf hindeuten, dass das KI-Videogenerierungs-Startup sein Gen-3-Modell mit Inhalten von Kanälen trainiert hat, die großen Unternehmen wie Disney, Netflix und Pixar gehören.
Ein anonymer ehemaliger Mitarbeiter von Runway enthüllte, dass diese Tabellen genutzt wurden, um Videos für die Datenbank des Unternehmens zu identifizieren, die dann unbemerkt mit Open-Source-Proxy-Software heruntergeladen wurden. Eine Tabelle enthielt einfache Schlüsselwörter wie „Astronaut“, „Fee“ und „Regenbogen“ sowie Anmerkungen zur Verfügbarkeit von qualitativ hochwertigen Trainingsvideos. Beispielsweise war beim Schlüsselwort „Superheld“ vermerkt: „Viele Filmclips.“ Weitere Notizen deuteten an, dass Kanäle, die sich auf Unreal Engine, den Filmemacher Josh Neuman und eine Call of Duty-Fanseite konzentrierten, hervorragende Quellen für „Videos mit viel Bewegung“ waren.
„Die Kanäle in dieser Tabelle stellten einen unternehmensweiten Effort dar, um qualitativ hochwertige Videos für die Modellentwicklung zu finden“, erklärte der ehemalige Mitarbeiter. „Das führte zur Erstellung eines massiven Web-Crawlers, der Videos von allen aufgeführten Kanälen herunterlud und Proxys nutzte, um der Erkennung durch Google zu entkommen.“
Die Tabelle beinhaltete nahezu 4.000 YouTube-Kanäle, die als „empfohlen“ gekennzeichnet waren und Inhalte von CBS New York, AMC Theaters, Pixar, Disney Plus und sogar dem Monterey Bay Aquarium boten. Berichten zufolge erstellte Runway auch eine separate Liste von Videos von Raubkopie-Webseiten, mit einer Tabelle mit dem Titel „Non-YouTube Source“, die Links zu nicht autorisierten Archiven von Studio Ghibli-Filmen und verschiedenen Anime- sowie Filmraubkopie-Plattformen enthielt.
Um die Behauptungen über die unzulässige Nutzung von Daten weiter zu untermauern, entdeckte 404 Media, dass die Eingabe der Namen beliebter YouTuber in der Tabelle bemerkenswert ähnliche Ergebnisse lieferte. Im Gegensatz dazu erzeugte die Verwendung der gleichen Namen mit Runways älterem Gen-2-Modell – das auf anderen Daten trainiert wurde – irrelevante Ergebnisse, wie allgemeine Bilder von Männern in Anzügen. Auffällig ist, dass das KI-Tool nach der Anfrage von 404 Media, welche Ähnlichkeit die Ergebnisse mit den YouTubern aufwiesen, die Generierung dieser Ähnlichkeiten vollständig einstellte.
„Ich hoffe, dass die Veröffentlichung dieser Informationen den Menschen hilft, das Ausmaß dieser Unternehmen und ihrer Methoden zur Erstellung 'cooler' Videos zu verstehen“, bemerkte der ehemalige Mitarbeiter.
Ein Vertreter von YouTube verwies auf ein Interview im April mit CEO Neal Mohan, der das Training mit ihren Videos als „offensichtlichen Verstoß“ gegen die YouTube-Richtlinien bezeichnete. „Unsere vorherigen Aussagen dazu bleiben bestehen“, sagte er. Runway reagierte bis zur Redaktionsschlussfrist der Publikation nicht auf die Anfrage.
Während sich die KI-Landschaft weiterentwickelt, versuchen möglicherweise einige Unternehmen, ihre Marktposition zu festigen, bevor Verbraucher und Rechtssysteme die Auswirkungen ihrer Praktiken vollständig verstehen. Während das Training mit Genehmigung durch lizenzierte Vereinbarungen – wie von Unternehmen wie OpenAI praktiziert – eine Möglichkeit darstellt, ist das Scraping des Internets nach urheberrechtlich geschützten Materialien eine umstrittenere, wenn nicht sogar illegale Strategie im Wettlauf um Profit und technologische Überlegenheit.