Kürzlich hat eine Umfrage von Proof News ergeben, dass mehrere große Tech-Unternehmen weltweit einen Datensatz von über 173.000 Transkripten aus YouTube-Videos ohne Genehmigung genutzt haben, um ihre KI-Modelle zu trainieren. Dieser Datensatz, erstellt von der gemeinnützigen Organisation EleutherAI, umfasst Transkripte aus über 48.000 Kanälen, wobei Unternehmen wie Apple, NVIDIA und Anthropic zu den Nutzern gehören. Diese Untersuchung beleuchtet ein drängendes Problem: Viele grundlegende Datensätze für KI-Technologien wurden ohne Zustimmung oder angemessene Entschädigung der Inhaltsersteller verwendet.
Obwohl der Datensatz keine tatsächlichen Videos oder Bilder von YouTube enthält, umfasst er Transkripte bekannter Creator wie Marques Brownlee und MrBeast sowie Inhalte großer Medienorganisationen wie The New York Times, BBC und ABC News. Auch Inhalte von Engadget sind enthalten.
Marques Brownlee äußerte seine Bedenken auf der Social-Media-Plattform X und sagte: „Apple bezieht KI-Daten von mehreren Unternehmen, einschließlich einer beträchtlichen Menge Transkripttext aus YouTube-Videos, darunter auch meine.“ Er betonte: „Dies ist seit langem ein Problem.“
Ein Sprecher von Google bestätigte gegenüber Engadget, dass die Äußerungen von YouTube-CEO Neal Mohan nach wie vor relevant seien; die Nutzung von YouTube-Daten zum Trainieren von KI-Modellen verstoße gegen die Nutzungsbedingungen der Plattform. Weder Apple, NVIDIA, Anthropic noch EleutherAI reagierten auf Anfragen von Engadget.
Die Intransparenz bezüglich der Daten, die von KI-Unternehmen zum Training ihrer Modelle verwendet werden, bleibt ein zentrales Anliegen. Kürzlich haben Künstler und Fotografen Apple kritisiert, weil das Unternehmen die Quellen der Trainingsdaten für seine kommende generative KI-Technologie, Apple Intelligence, die auf Millionen von Apple-Geräten implementiert werden soll, nicht offengelegt hat.
Als größte Online-Video-Plattform bietet YouTube nicht nur Transkript-Daten, sondern auch Audio- und Video-Inhalte, was es zu einer unschätzbaren Ressource für das Training von KI macht. Anfang dieses Jahres wich Mirra Murati, Chief Technology Officer von OpenAI, in einem Interview mit dem Wall Street Journal Fragen darüber aus, ob YouTube-Videos zum Training des KI-Tools Sora verwendet wurden, und bestand darauf, dass die verwendeten Daten öffentlich verfügbar oder lizenziert seien. Auch Alphabet-CEO Sundar Pichai erklärte, dass das Training von KI-Modellen mit YouTube-Daten gegen die Nutzungsbedingungen der Plattform verstoßen würde.
Um zu überprüfen, ob ein bestimmter Kanal oder das Transkript eines Videos in dem genannten Datensatz enthalten ist, besuchen Sie bitte das Abfragetool von Proof News.