MIT und Cohere starten Plattform zur Verfolgung und Filterung geprüfter KI-Datensätze

Home KI-Nachrichten MIT und Cohere starten Plattform zur Verfolgung und Filterung geprüfter KI-Datensätze

Updated on Oktober 25 2023

Forscher des MIT, Cohere for AI und 11 weiterer Institutionen haben heute die Data Provenance Platform ins Leben gerufen, um das drängende Thema der Datenklarheit in der KI anzugehen. Im Rahmen ihrer Initiative haben sie nahezu 2.000 der am häufigsten verwendeten Fine-Tuning-Datensätze überprüft und nachverfolgt, die insgesamt zig Millionen Mal heruntergeladen wurden und als Grundlage für viele bedeutende Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP) dienen. Laut Shayne Longpre, Doktorand am MIT Media Lab, und Sara Hooker, Leiterin von Cohere for AI, ist "das Ergebnis dieses interdisziplinären Efforts die größte Überprüfung von KI-Datensätzen bis heute." Zum ersten Mal verfügen diese Datensätze über Tags, die die ursprünglichen Datenquellen, mehrere wiederholte Lizenzen, Ersteller und andere relevante Eigenschaften identifizieren.

Um die Benutzerfreundlichkeit zu verbessern, ermöglicht der Data Provenance Explorer, eine interaktive Plattform, Entwicklern, Tausende von Datensätzen basierend auf rechtlichen und ethischen Kriterien nachzuverfolgen und zu filtern. Diese Ressource erlaubt es auch Wissenschaftlern und Journalisten, die Zusammensetzung und Herkunft beliebter KI-Datensätze zu untersuchen.

Datensatzsammlungen ignorieren Herkunft

Die Initiative culminierte in einem Papier mit dem Titel "The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI", das ein ernstes Problem beleuchtet: "Weit verbreitete Datensatzsammlungen werden oft als monolithisch betrachtet, anstatt ihre vielfältige Herkunft anzuerkennen. Diese Datensätze werden häufig aus verschiedenen Quellen extrahiert oder generiert, kuratiert und annotiert und durch zahlreiche Wiederverpackungs- und Lizenzierungszyklen von verschiedenen Akteuren bearbeitet."

Die Schwierigkeiten, diese Herkunft zu anerkennen, ergeben sich aus dem massiven Umfang der Datensammlung, der den Zuschreibungsprozess kompliziert, sowie aus einer verstärkten Urheberrechtsprüfung. Infolgedessen hat die Verwendung von Datasheets abgenommen, und es fehlt an Offenlegung über die Trainingsquellen, was das Verständnis von Trainingsdaten verringert. Diese Wissenslücke kann zu Datenlecks zwischen Trainings- und Testdatensätzen führen, zur Offenlegung personenbezogener Daten (PII), zu unbeabsichtigten Verzerrungen oder Verhaltensweisen und letztendlich zu qualitativ minderwertigen Modellen führen. Darüber hinaus stellen diese Lücken erhebliche ethische und rechtliche Risiken dar, wie Konflikte zwischen Modellveröffentlichungen und Nutzungsbedingungen der Daten. Da das Training mit Daten sowohl kostspielig als auch weitgehend irreversibel ist, sind diese Herausforderungen nicht leicht zu bewältigen.

Erhöhte Prüfung von Trainingsdatensätzen in 2023

Im Laufe des Jahres 2023 hat die Medienberichterstattung auf Probleme im Zusammenhang mit der Datenherkunft und der Transparenz von Trainingsdatensätzen hingewiesen. So kritisierte der CEO von Lightning AI, William Falcon, im März das GPT-4-Papier von OpenAI dafür, dass es "sich als Forschung tarnt" und wichtige Details vermissen lässt. Im Abschnitt "Umfang und Einschränkungen" des Berichts wurde speziell die fehlende Information über die Architektur, den Aufbau der Datensätze und die Trainingsmethoden aufgrund wettbewerblicher und sicherheitsrelevanter Bedenken im Zusammenhang mit großangelegten Modellen wie GPT-4 angemerkt.

Im September wurde eine detaillierte Analyse veröffentlicht, die die Urheberrechtsprobleme beleuchtet, die generative KI-Trainingsdaten plagen. Dr. Alex Hanna, Forschungsleiter am Distributed AI Research Institute (DAIR), wies auf die drängenden Herausforderungen hin, die durch die rasante Verbreitung generativer KI entstehen, und äußerte erhebliche Bedenken hinsichtlich der Verwendung urheberrechtlich geschützten Inhalts, der ohne Zustimmung gesammelt wurde.

NatureEye präsentiert beeindruckende Drohnen-Erlebnisse über atemberaubende Naturwunder der Welt.

Amazon stellt revolutionären KI-Produktbildgenerator vor

Most people like

Glitter AI

27.6K

Verwandeln Sie Aktionen mühelos in klare, umsetzbare Anleitungen.

Dokumentation AI Tutorial

Effy.ai

55K

Effy.ai ist eine moderne Software zur Leistungssteuerung, die darauf abzielt, das organisatorische Wachstum durch effektives Feedback, umfassende Bewertungen und strategische Entwicklungspläne zu fördern. Mit seiner benutzerfreundlichen Oberfläche ermöglicht Effy.ai Teams, ihr volles Potenzial auszuschöpfen und gleichzeitig eine Kultur der kontinuierlichen Verbesserung zu unterstützen.

Leistungsmanagement Other

Sorapix

Entfessle deine Kreativität: Erzeuge beeindruckende Bilder mit KI Im digitalen Zeitalter verändert die Kraft der künstlichen Intelligenz (KI) die Art und Weise, wie wir Kunst schaffen und visualisieren. Egal, ob du ein professioneller Künstler oder ein Amateur bist, die Erstellung von Bildern mit KI bietet unbegrenzte Möglichkeiten für Ausdruck und Innovation. Mit fortschrittlichen Algorithmen und benutzerfreundlichen Werkzeugen kannst du mühelos fesselnde Bilder produzieren, die deine einzigartige Vision widerspiegeln. Entdecke, wie KI deinen kreativen Prozess voranbringen und deine künstlerische Reise inspirieren kann.

KI AI Girlfriend

AICreditRepair

Entdecken Sie innovative KI-Tools, die entwickelt wurden, um Kreditbewertungen effektiv zu verbessern und zu reparieren. Diese fortschrittlichen Technologien bieten maßgeschneiderte Lösungen, um Ihren Kreditbericht zu verstehen, Probleme zu identifizieren und Verbesserungsstrategien umzusetzen. Mit dem Aufstieg der künstlichen Intelligenz war es noch nie so einfach, Ihre Kreditgesundheit zu optimieren. Nutzen Sie das Potenzial dieser KI-gesteuerten Plattformen, um die Kontrolle über Ihre finanzielle Zukunft zu übernehmen.

Kreditreparatur Other

Find AI tools in YBX