Große Erweiterung eines der weltweit größten KI-Trainingsdatensätze verspricht verbesserte Qualität und Umfang

Massive KI-Trainingsdatensätze, oft als Korpora bezeichnet, gelten als "das Rückgrat großer Sprachmodelle" (LLMs). Im Jahr 2023 erregte EleutherAI Aufsehen, als es eines der weltweit größten Open-Source-Textkorpora, den 825 GB großen Pile, schuf. Diese Organisation, ein gemeinnütziger Verein, der 2020 als Discord-Kollektiv gegründet wurde, um OpenAI’s GPT-3 zu erforschen, wurde angesichts wachsender rechtlicher und ethischer Bedenken bezüglich der für das Training populärer LLMs wie OpenAI's GPT-4 und Metas Llama verwendeten Datensätze kritisch betrachtet.

EleutherAI fand in zahlreichen Klagen, die sich auf generative KI konzentrierten, Erwähnung. Ein bemerkenswerter Fall, eingereicht im Oktober durch den ehemaligen Gouverneur von Arkansas, Mike Huckabee, und mehrere Autoren, behauptete, dass ihre Bücher in Books3 enthalten seien, einem umstrittenen Datensatz mit über 180.000 Werken, die zum Pile-Projekt beitrugen. Books3 wurde ursprünglich 2020 von Shawn Presser hochgeladen und im August 2023 nach einer rechtlichen Aufforderung einer dänischen Anti-Piraterie-Gruppe entfernt.

Trotz dieser Herausforderungen entwickelt EleutherAI eine aktualisierte Version des Pile-Datensatzes in Zusammenarbeit mit Institutionen wie der University of Toronto und dem Allen Institute for AI sowie unabhängigen Forschern. Stella Biderman, die Geschäftsführerin von EleutherAI, und Aviya Skowron, Leiterin für Politik und Ethik, gaben in einem gemeinsamen Interview bekannt, dass das neue Pile voraussichtlich in wenigen Monaten fertiggestellt sein wird.

Der aktualisierte Pile wird laut Biderman deutlich größer und "wesentlich besser" sein als sein Vorgänger. "Es wird viele neue Daten geben," betonte sie und hob die Integration bisher unbekannter Informationen hervor. Der neue Datensatz wird aktuellere Daten enthalten im Vergleich zur Originalversion, die im Dezember 2020 veröffentlicht wurde und zur Ausbildung von Modellen wie der Pythia-Suite und Stability AI’s Stable LM-Suite verwendet wurde. Mithilfe der Erkenntnisse aus dem Training von fast einem Dutzend LLMs wies Biderman auf verbesserte Datenvorverarbeitungsmethoden hin: "Als wir den Pile schufen, hatten wir noch nie ein LLM trainiert. Jetzt haben wir wertvolle Einblicke gewonnen, wie man Daten für den optimalen Einsatz in LLMs verfeinert."

Das aktualisierte Dataset wird auch einen stärkeren Fokus auf Qualität und Vielfalt der Daten legen. "Wir planen, viele weitere Bücher und eine breitere Auswahl an nicht-akademischen Sachbüchern zu integrieren," erklärte sie.

Der ursprüngliche Pile bestand aus 22 Unterdatensätzen, darunter Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, YouTube-Untertitel und sogar Enron-E-Mails. Biderman bemerkte, dass der Pile weltweit das am besten dokumentierte LLM-Trainingsdataset bleibt. Das Ziel der Initiative war es, einen umfangreichen Datensatz mit Milliarden von Textpassagen zu erstellen, der in der Größe mit OpenAIs Training für GPT-3 konkurriert.

"Als der Pile 2020 eingeführt wurde, spielte er eine entscheidende Rolle, weil er einzigartig war," erklärte Biderman. Zu diesem Zeitpunkt gab es nur ein öffentlich verfügbares großes Textkorpus, C4, das Google für verschiedene Sprachmodelle verwendete. "Aber C4 ist kleiner und weniger vielfältig," betonte sie und beschrieb es als eine verfeinerte Common Crawl-Vorlage.

Der Ansatz von EleutherAI zur Erstellung des Pile umfasste eine gezielte Kuratierung von Informationen und Themen, die für die Bereicherung des Modells wichtig sind. "Mehr als 75 % des Pile wurden aus spezifischen Bereichen kuratiert," bemerkte sie. "Unser Ziel war es, bedeutungsvolle Einblicke in die Welt zu bieten."

Skowron erläuterte EleutherAIs Haltung zur Modellentwicklung und fairen Nutzung und betonte, dass "aktuelle LLMs auf urheberrechtlich geschützten Daten basieren." Ein Ziel des Pile v2-Projekts ist es, Probleme im Zusammenhang mit dem Urheberrecht und der Datenlizenzierung anzugehen. Der neue Pile-Datensatz wird Werke aus dem öffentlichen Bereich, Texte unter Creative Commons-Lizenzen und Regierungsdokumente enthalten, um die Einhaltung rechtlicher Standards sicherzustellen. Darüber hinaus wird er Datensätze umfassen, für die ausdrückliche Genehmigungen von den Rechteinhabern eingeholt wurden.

Die Kritik an KI-Trainingsdatensätzen nahm nach der Veröffentlichung von ChatGPT im November 2022 zu, da Bedenken hinsichtlich Urheberrechtsverletzungen laut wurden. Die darauffolgende Reihe von Klagen gegen generative KI kam von Künstlern, Schriftstellern und Verlegern und führte zu erheblichen rechtlichen Herausforderungen, einschließlich einer Klage von The New York Times gegen OpenAI und Microsoft.

Die Debatte über KI-Trainingsdaten ist komplex. Biderman und Skowron hoben die Notwendigkeit hervor, moralisch bedenkliche Fälle zu behandeln, wie die Entdeckung von Kinderpornografie im LAION-5B-Datensatz, die kürzlich zu dessen Entfernung führte. Biderman merkte an, dass die Methodik zur Kennzeichnung solcher Inhalte möglicherweise rechtlich nicht für Organisationen wie LAION zugänglich ist.

Darüber hinaus erkannten sie die Bedenken von Kreativen an, deren Werke zur Ausbildung von KI-Modellen verwendet wurden, und betonten, dass viele dies unter großzügigen Lizenzen taten, ohne die Entwicklung der KI zu antizipieren. "Im Nachhinein hätten viele andere Lizenzierungsoptionen gewählt," reflektierte Biderman.

Während KI-Trainingsdatensätze einst hauptsächlich Forschungsinstrumente waren, haben sie sich in kommerzielle Produkte verwandelt. "Jetzt liegt der Schwerpunkt auf der Herstellung," sagte Biderman und hob das wachsende Bewusstsein für die kommerziellen Implikationen der KI-Modellausbildung hervor.

Interessanterweise argumentierten Biderman und Skowron, dass KI-Modelle, die auf offenen Datensätzen wie dem Pile trainiert wurden, sicherer sind, da eine höhere Transparenz der Daten die ethische Nutzung in verschiedenen Kontexten fördert. "Um viele politische Ziele zu erreichen, muss es Transparenz geben, einschließlich umfassender Trainingsdokumentationen," sagte Skowron.

Während EleutherAI weiterhin den Pile verfeinert, äußerte Biderman Optimismus über die baldige Veröffentlichung der neuen Modelle. "Wir arbeiten seit etwa anderthalb Jahren daran, und ich freue mich darauf, die Ergebnisse zu sehen. Ich erwarte, dass es einen kleinen, aber bedeutenden Unterschied machen wird."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles