Forscher des MIT, Cohere for AI und 11 weiterer Institutionen haben heute die Data Provenance Platform ins Leben gerufen, um das drängende Thema der Datenklarheit in der KI anzugehen. Im Rahmen ihrer Initiative haben sie nahezu 2.000 der am häufigsten verwendeten Fine-Tuning-Datensätze überprüft und nachverfolgt, die insgesamt zig Millionen Mal heruntergeladen wurden und als Grundlage für viele bedeutende Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP) dienen. Laut Shayne Longpre, Doktorand am MIT Media Lab, und Sara Hooker, Leiterin von Cohere for AI, ist "das Ergebnis dieses interdisziplinären Efforts die größte Überprüfung von KI-Datensätzen bis heute." Zum ersten Mal verfügen diese Datensätze über Tags, die die ursprünglichen Datenquellen, mehrere wiederholte Lizenzen, Ersteller und andere relevante Eigenschaften identifizieren.
Um die Benutzerfreundlichkeit zu verbessern, ermöglicht der Data Provenance Explorer, eine interaktive Plattform, Entwicklern, Tausende von Datensätzen basierend auf rechtlichen und ethischen Kriterien nachzuverfolgen und zu filtern. Diese Ressource erlaubt es auch Wissenschaftlern und Journalisten, die Zusammensetzung und Herkunft beliebter KI-Datensätze zu untersuchen.
Datensatzsammlungen ignorieren Herkunft
Die Initiative culminierte in einem Papier mit dem Titel "The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI", das ein ernstes Problem beleuchtet: "Weit verbreitete Datensatzsammlungen werden oft als monolithisch betrachtet, anstatt ihre vielfältige Herkunft anzuerkennen. Diese Datensätze werden häufig aus verschiedenen Quellen extrahiert oder generiert, kuratiert und annotiert und durch zahlreiche Wiederverpackungs- und Lizenzierungszyklen von verschiedenen Akteuren bearbeitet."
Die Schwierigkeiten, diese Herkunft zu anerkennen, ergeben sich aus dem massiven Umfang der Datensammlung, der den Zuschreibungsprozess kompliziert, sowie aus einer verstärkten Urheberrechtsprüfung. Infolgedessen hat die Verwendung von Datasheets abgenommen, und es fehlt an Offenlegung über die Trainingsquellen, was das Verständnis von Trainingsdaten verringert. Diese Wissenslücke kann zu Datenlecks zwischen Trainings- und Testdatensätzen führen, zur Offenlegung personenbezogener Daten (PII), zu unbeabsichtigten Verzerrungen oder Verhaltensweisen und letztendlich zu qualitativ minderwertigen Modellen führen. Darüber hinaus stellen diese Lücken erhebliche ethische und rechtliche Risiken dar, wie Konflikte zwischen Modellveröffentlichungen und Nutzungsbedingungen der Daten. Da das Training mit Daten sowohl kostspielig als auch weitgehend irreversibel ist, sind diese Herausforderungen nicht leicht zu bewältigen.
Erhöhte Prüfung von Trainingsdatensätzen in 2023
Im Laufe des Jahres 2023 hat die Medienberichterstattung auf Probleme im Zusammenhang mit der Datenherkunft und der Transparenz von Trainingsdatensätzen hingewiesen. So kritisierte der CEO von Lightning AI, William Falcon, im März das GPT-4-Papier von OpenAI dafür, dass es "sich als Forschung tarnt" und wichtige Details vermissen lässt. Im Abschnitt "Umfang und Einschränkungen" des Berichts wurde speziell die fehlende Information über die Architektur, den Aufbau der Datensätze und die Trainingsmethoden aufgrund wettbewerblicher und sicherheitsrelevanter Bedenken im Zusammenhang mit großangelegten Modellen wie GPT-4 angemerkt.
Im September wurde eine detaillierte Analyse veröffentlicht, die die Urheberrechtsprobleme beleuchtet, die generative KI-Trainingsdaten plagen. Dr. Alex Hanna, Forschungsleiter am Distributed AI Research Institute (DAIR), wies auf die drängenden Herausforderungen hin, die durch die rasante Verbreitung generativer KI entstehen, und äußerte erhebliche Bedenken hinsichtlich der Verwendung urheberrechtlich geschützten Inhalts, der ohne Zustimmung gesammelt wurde.