In einem exklusiven Interview mit dem Wall Street Journal sprach Mira Murati, CTO von OpenAI, über das Text-zu-Video-Modell Sora, das voraussichtlich in wenigen Monaten der Öffentlichkeit zugänglich sein könnte. Die Demo zeigte beeindruckende und herzerwärmende Clips, die das Publikum sowohl fesselten als auch amüsierten.
Das Gespräch nahm jedoch eine Wendung, als Murati zu den Trainingsdaten von Sora befragt wurde. Sie erklärte: „Wir haben öffentlich verfügbare und lizenzierte Daten verwendet“, hatte jedoch Schwierigkeiten, klarzustellen, ob Inhalte von YouTube, Facebook oder Instagram enthalten waren. Während sie bestätigte, dass Shutterstock-Inhalte genutzt wurden, war ihre Ungewissheit hinsichtlich anderer Plattformen auffällig. Ihre Antwort zu YouTube war „Da bin ich mir eigentlich nicht sicher“, während sie zu Facebook und Instagram vage erklärte, es „könnte“ öffentlich verfügbare Videos geben, ohne spezifische Details zu bestätigen.
Diese Unklarheit dürfte das PR-Team von OpenAI nicht erfreut haben, insbesondere angesichts der laufenden Urheberrechtsklagen, darunter eine von der New York Times. Die Einzelheiten der Trainingsdaten sind für viele Interessengruppen—autoren, Fotografen und Künstler—von entscheidender Bedeutung, die Klarheit darüber wünschen, welche Inhalte zur Entwicklung von Modellen wie Sora verwendet wurden. Berichten zufolge hat OpenAI Daten aus verschiedenen Online-Quellen genutzt, was die Überprüfung der Unternehmenspraktiken verschärft.
Die Auswirkungen von Trainingsdaten gehen über rechtliche Fragen hinaus; sie berühren Vertrauen und Transparenz. Wenn OpenAI mit „öffentlich verfügbaren“ Inhalten trainierte, was passiert dann, wenn die breite Öffentlichkeit darüber nicht informiert ist? Zudem nutzen auch andere Technologie-Giganten wie Google und Meta öffentlich geteilte Inhalte von eigenen Plattformen. Obwohl dies rechtlich zulässig sein mag, werfen aktuelle Warnungen der FTC über stillschweigend geänderte Nutzungsbedingungen Fragen zur öffentlichen Wahrnehmung auf.
Die Diskussion über Trainingsdaten ist grundlegend für generative KI, und die Möglichkeit einer Auseinandersetzung ist nicht nur in den Gerichten, sondern auch in der öffentlichen Wahrnehmung präsent. Wie bereits erwähnt, beeinflusst die Abhängigkeit von unterschiedlichen Datensätzen zur Schulung von KI-Modellen diejenigen, deren kreative Arbeiten zu diesen Datensätzen beitragen.
Historisch gesehen funktionierte die Datensammlung im Marketing auf einer Geben-und-Nehmen-Basis. Nutzer stellen Daten für verbesserte Erfahrungen zur Verfügung, obwohl dieser Austausch oft den Datenmaklern überproportional zugutekommt. Diese Dynamik verschiebt sich mit der generativen KI; viele empfinden die Nutzung ihrer öffentlich geteilten Werke als ausbeuterisch, was Bedrohungen für Arbeitsplätze und Kreativität aufwirft.
Experten plädieren für gut kuratierte Trainingsdatensätze, um Modelle zu verbessern, und betonen deren Bedeutung für die Forschung statt für kommerzielle Ausbeutung. Doch wenn die Menschen zunehmend erkennen, wie ihre Inhalte verwendet werden, um gewinnorientierte Modelle zu trainieren, bleibt die Frage: Wird die Akzeptanz sinken, wenn sie erfahren, dass ihre Videos zu kommerziellen KI-Ausgaben beigetragen haben?
Während sich die Landschaft entwickelt, könnten Unternehmen wie OpenAI, Google und Meta von ihren frühen Vorteilen profitieren. Allerdings könnten die anhaltenden Herausforderungen rund um KI-Trainingsdaten langfristige Folgen haben und die heutigen Vorteile in einen komplexen Handel verwandeln.