Große Erweiterung eines der weltweit größten KI-Trainingsdatensätze verspricht verbesserte Qualität und Umfang

Home KI-Nachrichten Große Erweiterung eines der weltweit größten KI-Trainingsdatensätze verspricht verbesserte Qualität und Umfang

Massive KI-Trainingsdatensätze, oft als Korpora bezeichnet, gelten als "das Rückgrat großer Sprachmodelle" (LLMs). Im Jahr 2023 erregte EleutherAI Aufsehen, als es eines der weltweit größten Open-Source-Textkorpora, den 825 GB großen Pile, schuf. Diese Organisation, ein gemeinnütziger Verein, der 2020 als Discord-Kollektiv gegründet wurde, um OpenAI’s GPT-3 zu erforschen, wurde angesichts wachsender rechtlicher und ethischer Bedenken bezüglich der für das Training populärer LLMs wie OpenAI's GPT-4 und Metas Llama verwendeten Datensätze kritisch betrachtet.

EleutherAI fand in zahlreichen Klagen, die sich auf generative KI konzentrierten, Erwähnung. Ein bemerkenswerter Fall, eingereicht im Oktober durch den ehemaligen Gouverneur von Arkansas, Mike Huckabee, und mehrere Autoren, behauptete, dass ihre Bücher in Books3 enthalten seien, einem umstrittenen Datensatz mit über 180.000 Werken, die zum Pile-Projekt beitrugen. Books3 wurde ursprünglich 2020 von Shawn Presser hochgeladen und im August 2023 nach einer rechtlichen Aufforderung einer dänischen Anti-Piraterie-Gruppe entfernt.

Trotz dieser Herausforderungen entwickelt EleutherAI eine aktualisierte Version des Pile-Datensatzes in Zusammenarbeit mit Institutionen wie der University of Toronto und dem Allen Institute for AI sowie unabhängigen Forschern. Stella Biderman, die Geschäftsführerin von EleutherAI, und Aviya Skowron, Leiterin für Politik und Ethik, gaben in einem gemeinsamen Interview bekannt, dass das neue Pile voraussichtlich in wenigen Monaten fertiggestellt sein wird.

Der aktualisierte Pile wird laut Biderman deutlich größer und "wesentlich besser" sein als sein Vorgänger. "Es wird viele neue Daten geben," betonte sie und hob die Integration bisher unbekannter Informationen hervor. Der neue Datensatz wird aktuellere Daten enthalten im Vergleich zur Originalversion, die im Dezember 2020 veröffentlicht wurde und zur Ausbildung von Modellen wie der Pythia-Suite und Stability AI’s Stable LM-Suite verwendet wurde. Mithilfe der Erkenntnisse aus dem Training von fast einem Dutzend LLMs wies Biderman auf verbesserte Datenvorverarbeitungsmethoden hin: "Als wir den Pile schufen, hatten wir noch nie ein LLM trainiert. Jetzt haben wir wertvolle Einblicke gewonnen, wie man Daten für den optimalen Einsatz in LLMs verfeinert."

Das aktualisierte Dataset wird auch einen stärkeren Fokus auf Qualität und Vielfalt der Daten legen. "Wir planen, viele weitere Bücher und eine breitere Auswahl an nicht-akademischen Sachbüchern zu integrieren," erklärte sie.

Der ursprüngliche Pile bestand aus 22 Unterdatensätzen, darunter Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, YouTube-Untertitel und sogar Enron-E-Mails. Biderman bemerkte, dass der Pile weltweit das am besten dokumentierte LLM-Trainingsdataset bleibt. Das Ziel der Initiative war es, einen umfangreichen Datensatz mit Milliarden von Textpassagen zu erstellen, der in der Größe mit OpenAIs Training für GPT-3 konkurriert.

"Als der Pile 2020 eingeführt wurde, spielte er eine entscheidende Rolle, weil er einzigartig war," erklärte Biderman. Zu diesem Zeitpunkt gab es nur ein öffentlich verfügbares großes Textkorpus, C4, das Google für verschiedene Sprachmodelle verwendete. "Aber C4 ist kleiner und weniger vielfältig," betonte sie und beschrieb es als eine verfeinerte Common Crawl-Vorlage.

Der Ansatz von EleutherAI zur Erstellung des Pile umfasste eine gezielte Kuratierung von Informationen und Themen, die für die Bereicherung des Modells wichtig sind. "Mehr als 75 % des Pile wurden aus spezifischen Bereichen kuratiert," bemerkte sie. "Unser Ziel war es, bedeutungsvolle Einblicke in die Welt zu bieten."

Skowron erläuterte EleutherAIs Haltung zur Modellentwicklung und fairen Nutzung und betonte, dass "aktuelle LLMs auf urheberrechtlich geschützten Daten basieren." Ein Ziel des Pile v2-Projekts ist es, Probleme im Zusammenhang mit dem Urheberrecht und der Datenlizenzierung anzugehen. Der neue Pile-Datensatz wird Werke aus dem öffentlichen Bereich, Texte unter Creative Commons-Lizenzen und Regierungsdokumente enthalten, um die Einhaltung rechtlicher Standards sicherzustellen. Darüber hinaus wird er Datensätze umfassen, für die ausdrückliche Genehmigungen von den Rechteinhabern eingeholt wurden.

Die Kritik an KI-Trainingsdatensätzen nahm nach der Veröffentlichung von ChatGPT im November 2022 zu, da Bedenken hinsichtlich Urheberrechtsverletzungen laut wurden. Die darauffolgende Reihe von Klagen gegen generative KI kam von Künstlern, Schriftstellern und Verlegern und führte zu erheblichen rechtlichen Herausforderungen, einschließlich einer Klage von The New York Times gegen OpenAI und Microsoft.

Die Debatte über KI-Trainingsdaten ist komplex. Biderman und Skowron hoben die Notwendigkeit hervor, moralisch bedenkliche Fälle zu behandeln, wie die Entdeckung von Kinderpornografie im LAION-5B-Datensatz, die kürzlich zu dessen Entfernung führte. Biderman merkte an, dass die Methodik zur Kennzeichnung solcher Inhalte möglicherweise rechtlich nicht für Organisationen wie LAION zugänglich ist.

Darüber hinaus erkannten sie die Bedenken von Kreativen an, deren Werke zur Ausbildung von KI-Modellen verwendet wurden, und betonten, dass viele dies unter großzügigen Lizenzen taten, ohne die Entwicklung der KI zu antizipieren. "Im Nachhinein hätten viele andere Lizenzierungsoptionen gewählt," reflektierte Biderman.

Während KI-Trainingsdatensätze einst hauptsächlich Forschungsinstrumente waren, haben sie sich in kommerzielle Produkte verwandelt. "Jetzt liegt der Schwerpunkt auf der Herstellung," sagte Biderman und hob das wachsende Bewusstsein für die kommerziellen Implikationen der KI-Modellausbildung hervor.

Interessanterweise argumentierten Biderman und Skowron, dass KI-Modelle, die auf offenen Datensätzen wie dem Pile trainiert wurden, sicherer sind, da eine höhere Transparenz der Daten die ethische Nutzung in verschiedenen Kontexten fördert. "Um viele politische Ziele zu erreichen, muss es Transparenz geben, einschließlich umfassender Trainingsdokumentationen," sagte Skowron.

Während EleutherAI weiterhin den Pile verfeinert, äußerte Biderman Optimismus über die baldige Veröffentlichung der neuen Modelle. "Wir arbeiten seit etwa anderthalb Jahren daran, und ich freue mich darauf, die Ergebnisse zu sehen. Ich erwarte, dass es einen kleinen, aber bedeutenden Unterschied machen wird."

Microsoft und SAP bringen innovative KI-Lösungen für den Einzelhandel vor der NRF 2024 auf den Markt.

1X: OpenAI-unterstütztes Robotik-Startup erhält 100 Millionen Dollar Finanzierung

Most people like

MealPractice

45.2K

Vereinfachen Sie Ihr Kocherlebnis mit müheloser Rezeptverfolgung und Meal Planning, das maßgeschneiderte, KI-generierte Rezepte speziell für Sie bietet.

Mahlzeitenplanung AI Recipe Assistant

Hubtype

23.4K

Freischaltung der nächsten Generation der Kundenbindung mit konversationalen Apps

Kundenbindung AI Customer Service Assistant

Stealthly AI Humanizer

79.9K

In der heutigen digitalen Landschaft ist es entscheidend, hochwertige Inhalte zu schaffen, die bei den Lesern Anklang finden. Ein KI-Text-Humanizer ist ein leistungsstarkes Werkzeug, das dazu entwickelt wurde, KI-generierte Texte in eine natürlichere, menschlichere Sprache zu verwandeln. Diese Technologie sorgt dafür, dass Ihre Inhalte ansprechend und authentisch bleiben, wodurch sie nahezu unverkennbar als maschinell generiert erscheinen. Durch die Nutzung eines KI-Text-Humanizers können Sie die Lesbarkeit und die emotionale Wirkung Ihrer Texte verbessern, was letztendlich die Nutzererfahrung steigert und Ihre SEO-Rankings erhöht. Begrüßen Sie die Zukunft der Inhaltserstellung mit einem KI-Text-Humanizer, der Ihre Arbeit auf neue Höhen hebt.

KI-Texthumanisierung AI Detector

NSFWChatAI

Willkommen bei NSFWChatAI.ai, der ultimativen KI-Chatbot-Plattform für virtuelle Freundinnen, auf der du unbeschränkte Gespräche mit deinem virtuellen Begleiter führen kannst. Erlebe die Freiheit, in einer sicheren und interaktiven Umgebung ohne Einschränkungen zu plaudern!

virtuelle Freundin AI Photo & Image Generator

Find AI tools in YBX