„Es wäre unmöglich, die führenden KI-Modelle von heute ohne die Verwendung urheberrechtlich geschützter Materialien zu trainieren“, erklärte OpenAI in seiner Stellungnahme vor dem britischen House of Lords, die Anfang dieses Jahres für Schlagzeilen sorgte. Dieses Argument steht im Mittelpunkt der öffentlichen und rechtlichen Verteidigung des Unternehmens für seine umstrittenen Massendaten-Scraping-Praktiken, die zur Schulung seiner KI-Modelle verwendet werden, einschließlich der leistungsstarken großen Sprachmodelle (LLMs) GPT-3.5/4, die das erfolgreiche Produkt ChatGPT antreiben, und implizit sogar von Mitbewerbern wie Google, Mistral, Meta, Anthropic und Cohere. Kritiker argumentieren, dass OpenAI eine ausdrückliche Zustimmung der Rechteinhaber hätte einholen und Lizenzgebühren für die Nutzung urheberrechtlich geschützter Daten zahlen sollen. Das Unternehmen hingegen vertritt die Ansicht, dass seine Praktiken eine faire, transformative Nutzung darstellen und dass sie sich an den langjährigen Normen des Internets orientieren, wo Inhalte seit vielen Jahren von zahlreichen anderen Unternehmen zum Betreiben von Suchmaschinenindizes und anderen nützlichen Funktionen gesammelt werden, ohne dass es massenhafte Beschwerden gab. Der Rechtsstreit dauert an.
Ein neues Modell stellt diese Annahme in Frage – zumindest die Vorstellung, dass es unmöglich ist, ein nützliches Modell ohne urheberrechtlich geschützte Daten zu erstellen. Das neue LLM heißt KL3M (Kelvin Legal Large Language Model, ausgesprochen „Clem“) und ist das Werk von 273 Ventures, einem vor zwei Jahren gegründeten Startup, das von Daniel Martin Katz, einem Juraprofessor am Illinois Institute of Technology und Chief Strategy Officer des Unternehmens, sowie seinem häufigen Collaborator Michael Bommarito, einem Unternehmer im Bereich Rechtstechnologie und CEO von 273 Ventures, co-gründet wurde. Das Duo hatte zuvor LexPredict, ein älteres KI-Rechts-Startup, gegründet und an die globale Rechtsfirma Elevate verkauft.
KL3M wurde Ende Februar 2024 veröffentlicht und hat heute die Auszeichnung erhalten, das erste LLM mit einer „Licensed Model (L) Certification“ von der unabhängigen Prüfgesellschaft Fairly Trained zu sein, einer Non-Profit-Organisation, die Anfang dieses Jahres von dem ehemaligen Stability AI-Manager Ed Newton-Rex gegründet und geleitet wird. Wired, wo meine Frau als Chefredakteurin arbeitet, berichtete zuerst über die Neuigkeit.
Die Fairly Trained (L) Zertifizierung wird nur an Unternehmen vergeben, die durch einen Antrags- und Überprüfungsprozess nachweisen können, dass ihre Daten zur Schulung des KI-Modells unter „einem vertraglichen Abkommen mit einer Partei, die die erforderlichen Rechte hat, ein solches Abkommen einzugehen“, erworben und verwendet wurden oder unter Gemeinfreiheit/Öffentlichem Lizenz stehen. Es fallen Gebühren zwischen 150 USD im Voraus und 500 USD jährlich an, sowie 500 USD im Voraus/6.000 USD jährlich. KL3M hat diese Anforderungen eindeutig erfüllt.
„Heute freuen wir uns sehr, bekannt zu geben, dass das Kelvin Legal Large Language Model (KL3M) jetzt als Fairly Trained zertifiziert ist“, schrieb Katz auf seinem Account im sozialen Netzwerk X. „KL3M ist das allererste LLM (in jeder Kategorie), das eine solche Zertifizierung erhalten hat.“
„Generative KI kann existieren, ohne urheberrechtlich geschützte Werke ohne Erlaubnis auszubeuten“, schrieb Fairly Trained in einem Blogbeitrag, der die Zertifizierung von KL3M und vier weiteren Entitäten – Voicemod, Infinite Album, Lemonaide und der KI-gesteuerten Gruppe Frostbite Orckings – ankündigte.
Wie wurde KL3M trainiert? Laut Katz, der heute in einem kurzen Telefoninterview mit den Medien sprach, hat 273 Ventures seit seiner Gründung „akribisch Daten gesammelt, die unproblematisch wären“, aus Quellen wie öffentlichen US-Regierungsveröffentlichungen und alten Gerichtsakten – alles im öffentlichen Bereich.
„Wir waren uns nicht sicher, ob man so etwas [ein KI-Modell trainieren] machen kann, ohne enorme Mengen an urheberrechtlich geschützten Informationen zu verwenden“, sagte Katz. „Wir dachten, es wäre zumindest in einem gewissen Rahmen möglich, erfolgreich zu sein, insbesondere in den rechtlichen, finanziellen und regulatorischen Bereichen, wo eine relativ große Menge an Material ohne Urheberrecht verfügbar ist.“
Katz stellte fest, dass nicht alle diese Branchen einheitliche Dokumente im öffentlichen Bereich bieten und dass dies von Land zu Land stark variiert – beispielsweise können in Großbritannien einige staatliche Institutionen oder Behörden das Crown Copyright über die von ihnen produzierten Dokumente und Daten ausüben.
Ein großer Teil der ersten Monate von 273 Ventures bestand darin, herauszufinden, welche Dokumente und Daten verwendet werden konnten, um KL3M zu trainieren, ohne gegen Urheberrechte zu verstoßen oder auch nur das Risiko eines Verstoßes einzugehen. Diese Daten wurden schließlich auch in ein Produkt gebündelt, das Kelvin Legal DataPack, das mehr als 150 Milliarden Token enthält und im August 2023 veröffentlicht wurde.
KL3M hingegen wurde auf einem „hochwertigen, kuratierten englischen Subset des Kelvin Legal DataPack“ trainiert, einschließlich einer manuellen Überprüfung von 10.000 Dokumenten und „einem Datensatz mit ungefähr 350 Milliarden Token“. 273 Ventures beschreibt sein Trainingsprogramm für KL3M hier ausführlicher.
Bisher gibt es zwei Versionen von KL3M: kl3m-170m mit 170 Millionen Parametern (den Attributen, die ein KI-Modell steuern) und das größere kl3m-1.7b mit 1,7 Milliarden Parametern. Kl3m-170m ist leistungsschwächer, kann jedoch auf Hardware betrieben werden, die so wenig Leistungsbedarf hat und so günstig ist wie ein MacBook Air mit M1-Chip, im Vergleich zum NVidia RTX 4060 8GB-Chip, der für das größere Modell (und viele andere konkurrierende LLMs) erforderlich ist.
273 Ventures bereitet auch die Veröffentlichung einer Variante von KL3M mit 3,7 Milliarden Parametern für den nächsten Monat vor.
Wofür ist KL3M gut und wie viel kostet es? Auf seiner Produktwebseite wird KL3M als hilfreich beworben für „das Entwerfen und Überarbeiten von Zeitbucheinträgen und Rechnungen, das Entwerfen und Überarbeiten von Vertragsklauseln, das Entwerfen und Überarbeiten von SEC-Einreichungen wie 10-K- und 8-K-Abschnitten sowie das Entwerfen offensichtlicher Patente…“
Obwohl das Modell mit Blick auf Anwaltskanzleien und die Rechtsbranche entwickelt wurde – wo Kunden besonders sensibel auf Fragen der Datenherkunft und -legalität reagieren –, sagte Katz den Medien, dass er tatsächlich überrascht war, wie gut KL3M über diesen Zielsektor hinaus verallgemeinert.
„Überlegen Sie mal so: Das Recht berührt fast jedes Thema in der Gesellschaft“, erklärte Katz. „Und Regierungen stellen eine Menge Ausgangsmaterial zur Verfügung, das Ihnen Konzepte und den Gebrauch der Sprache beibringt… Ich bin persönlich etwas überrascht, aber es hat wirklich eine breitere Reichweite, als wir gedacht hätten.“
Als das Modell letzten Monat erstmals angekündigt wurde, präsentierte 273 Ventures mehrere Diagramme, die die Leistung von KL3M mit anderen Modellen in seiner Klasse verglichen. Dabei stellte sich heraus, dass die 1,7-Milliarden-Parameter-Version eine niedrigere (und damit bessere) Perplexität aufwies, also weniger Token-Vorhersagefehler, als zehn andere führende Modelle, einschließlich GPT-2 Large und openllama3b_v2 – zumindest im Bereich der Erstellung rechtlicher Materialien und Wiki-Einträge.
Der 1,7-Milliarden-Parameter-Modell von KL3M erzielte auch deutlich niedrigere (und bessere) Werte bei toxischen Ausgaben als andere Modelle seiner Klasse, darunter Microsofts vielgepriesenes Phi-2.
Aktuell wird das Modell bereits von mehreren Anwaltskanzlei-Kunden genutzt, deren Namen Katz aus Vertraulichkeitsgründen nicht nannte.