Es wird oft als die „Ursünde“ der generativen KI bezeichnet: Viele führende Modelle von Unternehmen wie OpenAI und Meta wurden auf Daten trainiert, die ohne vorherige Zustimmung oder Wissen der ursprünglichen Schöpfer aus dem Internet gesammelt wurden. KI-Unternehmen, die diese Praxis verteidigen, argumentieren, dass sie rechtlich zulässig sei. OpenAI erklärt in einem aktuellen Blogbeitrag: „Das Trainieren von KI-Modellen mit öffentlich zugänglichen Internetinhalten ist ein Fair Use, unterstützt durch langjährige Präzedenzfälle. Wir glauben, dass dieses Prinzip für die Schöpfer fair, für Innovatoren notwendig und für die Wettbewerbsfähigkeit der USA entscheidend ist.“
Das Datenkratzen hat eine Geschichte, die vor dem Aufstieg der generativen KI begann und in vielen Forschungsdatenbanken sowie kommerziellen Produkten, einschließlich bekannter Suchmaschinen wie Google, eingesetzt wurde, auf die Kreative für den Verkehr zu ihren Projekten angewiesen sind.
Allerdings wächst der Widerstand gegen diese Praxis. Zahlreiche Autoren und Künstler verklagen mehrere KI-Unternehmen wegen angeblicher Urheberrechtsverletzungen, weil ihre Werke ohne ausdrückliche Zustimmung verwendet wurden. Besonders Midjourney und OpenAI sehen sich verstärkter Prüfung ausgesetzt.
Eine neue gemeinnützige Organisation namens „Fairly Trained“ hat sich gegründet, um die Rechte von Datenkreatoren zu vertreten und fordert, dass vor der Nutzung ihrer Werke zur KI-Ausbildung eine ausdrückliche Zustimmung eingeholt wird. Co-gegründet von Ed Newton-Rex, einem ehemaligen Mitarbeiter von Stability AI, verfolgt Fairly Trained das Ziel, sicherzustellen, dass KI-Unternehmen die Rechte der Schöpfer respektieren.
„Wir glauben, dass viele Verbraucher und Unternehmen lieber mit generativen KI-Unternehmen zusammenarbeiten würden, die auf Daten trainieren, die von den Schöpfern genehmigt wurden“, heißt es auf der Website der Organisation. Newton-Rex hebt einen Weg für generative KI hervor, der die Schöpfer ehrt, und plädiert für ein Lizenzmodell für Trainingsdaten. „Wenn Sie bei einem generativen KI-Unternehmen arbeiten oder eines kennen, das diesen Ansatz priorisiert, hoffe ich, dass Sie eine Zertifizierung in Betracht ziehen“, teilte er in sozialen Medien mit.
Auf die häufige Argumentation von KI-Befürwortern, dass das Trainieren mit öffentlich zugänglichen Daten dem menschlichen Lernen durch das Beobachten kreativer Arbeiten ähnelt, entgegnete Newton-Rex: „Dieses Argument ist aus zwei Gründen fehlerhaft. Erstens, KI skaliert. Eine einzige KI kann enorme Mengen an Output erzeugen, die die Nachfrage nach einem Großteil des Originalinhalts ersetzen könnten – etwas, das kein Mensch leisten kann. Zweitens operiert menschliches Lernen innerhalb eines etablierten sozialen Vertrags; die Schöpfer haben schon immer gewusst, dass ihre Werke andere inspirieren könnten. Sie hatten jedoch nicht damit gerechnet, dass KI-Systeme ihre Kreationen nutzen, um konkurrierenden Inhalt in großem Maßstab zu generieren.“
Newton-Rex rät KI-Unternehmen, die bereits auf öffentlich zugängliche Daten trainiert haben, zu einem Lizenzmodell überzugehen und die Genehmigung von Schöpfern einzuholen. „Wir stehen noch am Anfang der Evolution der generativen KI, und es gibt Zeit, ein für menschliche Schöpfer und KI-Unternehmen vorteilhaftes Ökosystem zu schaffen“, bemerkte er.
Fairly Trained hat eine „Lizenzmodell (L)-Zertifizierung für KI-Anbieter“ eingeführt, um zwischen Unternehmen, die Zustimmung für Trainingsdaten einholen, und denen, die dies nicht tun, zu unterscheiden. Der Zertifizierungsprozess umfasst eine Online-Einreichung, gefolgt von einer umfassenderen Überprüfung, wobei die Gebühren je nach Jahresumsatz von 150 bis 6.000 Dollar reichen.
Newton-Rex erklärte: „Wir erheben Gebühren, um unsere Kosten zu decken, und sie sind niedrig genug, um nicht prohibitv für generative KI-Unternehmen zu sein.“ Mehrere Unternehmen, darunter Beatoven.AI und Soundful, haben dieses Zertifikat bereits erhalten, obwohl Newton-Rex keine konkreten Gebührenbeträge nennen wollte.
Auf die Frage zu Unternehmen wie Adobe und Shutterstock, die KI-Modelle mit den Werken von Kreativen unter ihren Nutzungsbedingungen trainieren, sagte er: „Wir ziehen es vor, nicht über spezifische Modelle zu kommentieren, die wir nicht zertifiziert haben. Wenn sie glauben, dass ihre Modelle unseren Zertifizierungsstandards entsprechen, sind sie eingeladen, sich zu bewerben.“
Zu den Beratern von Fairly Trained zählen Tom Gruber, der ehemalige Chief Technologist von Siri, und Maria Pallante, Präsidentin und CEO der Association of American Publishers. Zu den Unterstützern gehören namhafte Organisationen wie die Association of Independent Music Publishers und die Universal Music Group, die beide an Rechtsstreitigkeiten gegen das KI-Unternehmen Anthropic über urheberrechtlich geschützte Songtexte beteiligt sind.
Auf die Frage, ob Fairly Trained an laufenden Prozessen beteiligt sei, stellte Newton-Rex klar: „Nein, ich bin an keinen der Rechtsstreitigkeiten beteiligt.“ Er bestätigte auch, dass es derzeit keine externen Finanzierungsquellen für Fairly Trained gibt, abgesehen von den Zertifizierungsgebühren.