Eine Untersuchung von Proof News hat ergeben, dass einige der größten Tech-Unternehmen, darunter Apple, NVIDIA und Anthropic, ihre KI-Modelle mit einem Datensatz trainiert haben, der Transkripte von über 173.000 YouTube-Videos enthält – ohne die Erlaubnis der Creator einzuholen. Dieser von der Non-Profit-Organisation EleutherAI zusammengestellte Datensatz umfasst Transkripte von Kanälen, die mehr als 48.000 Creator repräsentieren, darunter bekannte Persönlichkeiten wie Marques Brownlee und MrBeast sowie bedeutende Nachrichtenorganisationen wie The New York Times, BBC und ABC News.
Diese Untersuchung wirft einen besorgniserregenden Blick auf die Realität der KI-Entwicklung: Ein Großteil der Technologie stützt sich auf Daten, die ohne Zustimmung oder Vergütung von den Erstellern entnommen wurden. Obwohl der Datensatz keine Videos oder Bilder enthält, stammen dennoch erhebliche Beiträge von einflussreichen Content-Creators.
Marques Brownlee äußerte seine Bedenken in den sozialen Medien und wies darauf hin, dass Apple Daten von verschiedenen Unternehmen bezogen habe, darunter eines, das Transkripte von YouTube-Videos, einschließlich seiner, gesammelt hat. Er sagte: "Dies wird ein sich entwickelndes Problem für lange Zeit sein," und erkannte damit die komplexe ethische Landschaft rund um die Datennutzung in der KI an.
Ein Sprecher von Google betonte erneut die Stellungnahme von YouTube-CEO Neal Mohan, dass Unternehmen, die YouTube-Daten für das KI-Training nutzen, gegen die Nutzungsbedingungen der Plattform verstoßen. Mehrfache Versuche, Kommentare von Apple, NVIDIA, Anthropic und EleutherAI zu erhalten, blieben unbeantwortet.
Die Transparenz hinsichtlich der Trainingsdaten, die von KI-Unternehmen verwendet werden, bleibt ein schwer fassbares Problem. Kürzlich sah sich Apple Kritik von Künstlern und Fotografen gegenüber, weil das Unternehmen die Herkunft der Trainingsdaten für seine kommende generative KI-Funktion, Apple Intelligence, nicht offenlegte. In einer Stellungnahme erklärte Apple, dass sein OpenELM-Modell – das ausschließlich für Forschungszwecke erstellt wurde – nicht für seine KI- oder Machine-Learning-Funktionen verantwortlich ist. Das Unternehmen behauptet, dass seine KI-Modelle mit "lizenzierten Daten" und öffentlich verfügbaren Informationen, die von Web-Crawlern gesammelt wurden, trainiert werden.
YouTube, als das weltweit größte Videorepositorium, bietet eine Fülle von Transkripten, Audio, Video und Bildern und ist eine attraktive Ressource für die Entwicklung von KI-Modellen. Früher in diesem Jahr wich Mira Murati, Chief Technology Officer von OpenAI, Fragen aus, ob YouTube-Videos zum Training von Sora, OpenAIs bevorstehendem KI-Video-Generierungstool, verwendet wurden, und erklärte, dass die Daten entweder öffentlich verfügbar oder lizenziert sind.
Wenn Sie herausfinden möchten, ob Untertitel von Ihren YouTube-Videos oder denen Ihrer Lieblingskanäle in diesem Datensatz enthalten sind, besuchen Sie das Suchwerkzeug von Proof News.