In einem bahnbrechenden Wandel von traditionellen Praktiken setzen Unternehmen für generative KI große Sprachmodelle (LLMs) direkt in der unberechenbaren Umgebung des Internets zur Qualitätssicherung ein. Warum Zeit in umfangreiche Tests investieren, wenn die Online-Community gemeinsam Fehler identifizieren kann? Dieses mutige Experiment lädt Nutzer zu einem umfassenden, ungeplanten Beta-Test ein. Jeder Eingabeaufforderung offenbart die einzigartigen Eigenheiten der LLMs, während das weite Netz als Auffangbecken für Fehler dient – vorausgesetzt, die Nutzer stimmen den Bedingungen zu.
Ethik und Genauigkeit: Option oder Pflicht?
Der Drang, generative KI-LLM-Modelle zu veröffentlichen, gleicht dem Verteilen von Feuerwerkskörpern — unterhaltsam, aber potenziell gefährlich. Mistral stellte kürzlich sein 7B-Modell unter der Apache 2.0-Lizenz vor. Die fehlenden klaren Nutzungseinschränkungen werfen besorgniserregende Fragen bezüglich möglicher Missbräuche auf. Kleine Änderungen in den zugrunde liegenden Parametern können zu drastisch unterschiedlichen Ergebnissen führen. Zudem perpetuieren in Algorithmen und Trainingsdatensätzen verankerte Vorurteile gesellschaftliche Ungleichheiten. CommonCrawl, das den Großteil der Trainingsdaten für LLMs liefert – 60% für GPT-3 und 67% für LLaMA – agiert ohne strenge Qualitätskontrollen, was die Datenwahl auf die Entwickler abwälzt. Es ist entscheidend, diese Vorurteile zu erkennen und anzugehen, um eine ethische KI-Nutzung sicherzustellen.
Die Entwicklung ethischer Software sollte zwingend erforderlich sein, nicht optional. Wenn Entwickler jedoch ethische Richtlinien ignorieren, sind die Sicherheitsvorkehrungen begrenzt. Daher ist es für politische Entscheidungsträger und Organisationen von größter Bedeutung, eine verantwortungsvolle und unvoreingenommene Anwendung generativer KI sicherzustellen.
Wer trägt die Verantwortung?
Der rechtliche Rahmen rund um LLMs ist unklar und wirft oft essentielle Fragen zur Rechenschaftspflicht auf. Die Nutzungsbedingungen für generative KI garantieren keine Genauigkeit oder übernehmen keine Haftung, sondern verlassen sich auf das Ermessen der Nutzer. Viele Nutzer greifen auf diese Tools zu, um zu lernen oder zu arbeiten, besitzen jedoch möglicherweise nicht die Fähigkeiten, um verlässliche Informationen von halluzinierten Inhalten zu unterscheiden.
Die Auswirkungen von Ungenauigkeiten können sich in der realen Welt auswirken. Zum Beispiel fiel der Aktienkurs von Alphabet stark, nachdem Googles Bard-Chatbot fälschlicherweise erklärte, das James-Webb-Weltraumteleskop habe die ersten Bilder eines Planeten außerhalb unseres Sonnensystems aufgenommen. Wenn LLMs in bedeutende Entscheidungsfindungen integriert werden, drängt sich die Frage auf: Bei Fehlern, sollte die Verantwortung beim Anbieter des LLM, dem Dienstleister oder dem Nutzer liegen, der die Informationen nicht überprüft hat?
Betrachten wir zwei Szenarien: Szenario A zeigt ein fehlerhaftes Fahrzeug, das einen Unfall verursacht, während Szenario B rücksichtsloses Fahren darstellt, das das gleiche Ergebnis hat. Die Folgen sind bedauerlich, doch die Verantwortung unterscheidet sich. Bei LLMs können Fehler sowohl auf Versagen des Anbieters als auch auf Nachlässigkeit des Nutzers zurückzuführen sein, was die Verantwortung kompliziert.
Der Bedarf nach einem 'No-LLM-Index'
Die bestehende „noindex“-Regel ermöglicht es Inhaltsanbietern, sich von der Indizierung durch Suchmaschinen abzumelden. Eine ähnliche Option, „no-llm-index“, könnte es Erstellern ermöglichen, zu verhindern, dass ihre Inhalte von LLMs verarbeitet werden. Derzeit entsprechen LLMs nicht dem California Consumer Privacy Act (CCPA) oder dem Recht auf Löschung nach der DSGVO, was Datenlöschanfragen erschwert. Im Gegensatz zu herkömmlichen Datenbanken, wo Daten leicht identifizierbar und löschbar sind, generieren LLMs Ausgaben basierend auf gelernten Mustern, was das gezielte Entfernen spezifischer Daten nahezu unmöglich macht.
Den rechtlichen Rahmen navigieren
Im Jahr 2015 betrachtete ein US-Berufungsgericht Googles Scannen von Büchern für Google Books als „faire Nutzung“ aufgrund seines transformativen Charakters. Generative KI überschreitet jedoch diese Grenzen und führt zu rechtlichen Herausforderungen hinsichtlich der Vergütung von Inhaltsanbietern, deren Werke LLMs speisen. Große Anbieter wie OpenAI, Microsoft, GitHub und Meta sehen sich Klagen im Zusammenhang mit der Reproduktion von Computer-Code aus Open-Source-Software gegenüber. Inhaltsanbieter auf sozialen Plattformen sollten die Möglichkeit haben, sich gegen die Monetarisierung oder die Verwendung ihrer Arbeiten in LLMs zu entscheiden.
Ausblick
Die Qualitätsstandards variieren erheblich zwischen den Branchen; beispielsweise stürzt die Amazon Prime Music-App täglich ab, während selbst eine Absturzrate von 2% im Gesundheitswesen oder im öffentlichen Dienst katastrophale Folgen haben könnte. Währenddessen bleiben die Erwartungen an die LLM-Leistung im Fluss. Im Gegensatz zu App-Ausfällen, die leicht identifizierbar sind, ist es komplex festzustellen, wann KI Fehlfunktionen hat oder Halluzinationen produziert.
Mit dem Fortschritt der generativen KI bleibt es entscheidend, Innovation mit grundlegenden Rechten in Einklang zu bringen, was für politische Entscheidungsträger, Technologen und die Gesellschaft von Bedeutung ist. Jüngste Vorschläge des Nationalen Komitees für Informationssicherheit in China und ein Executive Order von Präsident Biden fordern Rahmenbedingungen zum Umgang mit Problemen der generativen KI.
Die Herausforderungen sind nicht neu; vergangene Erfahrungen zeigen, dass Plattformen trotz anhaltender Probleme wie Fake News oft nur minimal reagieren. LLMs benötigen umfangreiche Datensätze, die oft kostenlos aus dem Internet bezogen werden. Obwohl die Kuratierung dieser Datensätze zur Qualitätssicherung möglich ist, bleibt die Definition von „Qualität“ subjektiv.
Die entscheidende Frage bleibt, ob LLM-Anbieter diese Probleme tatsächlich angehen oder weiterhin die Verantwortung abwälzen werden. Schnallen Sie sich an; es wird eine aufregende Fahrt!