Als Chief Information Security Officer bei Anthropic trägt Jason Clinton eine vielschichtige Verantwortung und berichtet direkt an CEO Dario Amodei. Mit seinem engagierten Team kümmert er sich um verschiedene Aspekte der Sicherheit, einschließlich Daten- und physikalischem Schutz, in diesem von Google und Amazon unterstützten Startup, das für seine fortschrittlichen Sprachmodelle, Claude und Claude 2, bekannt ist. Trotz einer Investition von über 7 Milliarden Dollar und rund 300 Mitarbeitern liegt Clintons Hauptaugenmerk darauf, die Modellgewichte von Claude—die in einer riesigen Terabyte-Datei gespeichert sind—vor unbefugtem Zugriff zu schützen.
In der maschinellen Lerntechnik, insbesondere bei tiefen neuronalen Netzwerken, repräsentieren Modellgewichte die entscheidenden numerischen Verbindungen, die es dem Netzwerk ermöglichen, zu lernen und Vorhersagen zu treffen. Die endgültigen Werte dieser Gewichte haben einen erheblichen Einfluss auf die Gesamtleistung des Modells. Ein aktueller Forschungsbericht der Rand Corporation hebt die Bedeutung des Schutzes dieser Gewichte hervor, die die umfangreichen Ressourcen und komplexen Prozesse beschreiben, die in das Training fortschrittlicher Modelle fließen. Wenn diese von böswilligen Akteuren erlangt werden, könnten sie vollständigen Zugang zum Modell zu einem Bruchteil der Trainingskosten ermöglichen.
„Ich verbringe wahrscheinlich fast die Hälfte meiner Zeit als CISO damit, darüber nachzudenken, wie ich diese eine Datei schütze“, bemerkte Clinton in einem kürzlichen Interview und betonte, dass ihr innerhalb der Organisation große Aufmerksamkeit und Ressourcen gewidmet werden.
Bedenken hinsichtlich der Modellgewichte
Clinton, der nach einer 11-jährigen Karriere bei Google zu Anthropic wechselte, wies darauf hin, dass einige die Gewichte als hochgradig wertvolles geistiges Eigentum betrachten, während die Hauptsorge des Unternehmens darin besteht, zu verhindern, dass die Technologie in die falschen Hände gerät. Missbrauch durch opportunistische Kriminelle, terroristische Gruppen oder Nationalstaaten könnte schwerwiegende Folgen haben. „Wenn ein Angreifer die gesamte Datei zugreift, hat er das gesamte neuronale Netzwerk“, warnte er.
Diese Bedenken werden durch aktuelle Initiativen der US-Regierung untermauert. Die Exekutive des Weißen Hauses zur „sicheren, geschützten und vertrauenswürdigen Entwicklung und Nutzung von künstlicher Intelligenz“ verlangt von Unternehmen, die grundlegende Modelle betreiben, Dokumentationen über Eigentum und Sicherheitsmaßnahmen rund um ihre Modellgewichte.
OpenAI, ein bedeutender Akteur in diesem Bereich, erklärte in einem Blogbeitrag im Oktober 2023, dass es intensiv in Cybersicherheitsmaßnahmen investiert, um proprietäre Modellgewichte zu schützen, und die Verbreitung außerhalb der eigenen Organisation und des Technologiepartners Microsoft einschränkt.
Identifizierte Angriffsvektoren in neuer Forschung
Die Co-Autoren Sella Nevo und Dan Lahav identifizierten im aktuellen Bericht der Rand Corporation „Die Sicherung der Modellgewichte der künstlichen Intelligenz“ rund 40 potenzielle Angriffsvektoren, die von böswilligen Akteuren ausgenutzt werden könnten, um Modellgewichte zu stehlen. Vom unbefugten physikalischen Zugriff bis zu Angriffen auf die Lieferkette hebt der Bericht reale Beispiele für diese Vektoren hervor.
Nevo betonte, dass die Bedenken weniger auf aktuellen Fähigkeiten beruhten, sondern sich stärker auf zukünftige Risiken konzentrierten, wobei er erhebliche nationale Sicherheitsimplikationen für die Weiterentwicklung der Modelle voraussah.
Risiken offener Grundmodelle
Nicht alle Experten sind sich über die Schwere der Risiken im Zusammenhang mit Leaks von KI-Modellgewichten, insbesondere bei Open-Source-Modellen, einig. Ein Policy Brief des Stanford HAI deutete darauf hin, dass weit verbreitete offene Grundmodelle Innovation und Transparenz fördern können, und schlug vor, die damit verbundenen Risiken im Vergleich zu geschlossenen Modellen zu bewerten.
Kevin Bankston vom Center for Democracy & Technology lobte den Brief für seine ausgewogene, evidenzbasierte Analyse. Der Brief hob gemischte Ergebnisse hervor und verwies auf das Llama 2-Modell von Meta, das trotz eines vorherigen Leaks mit öffentlich zugänglichen Gewichten veröffentlicht wurde.
Während Befürworter für die Sicherheit von Open Source plädieren, wies Heather Frase von der Georgetown University darauf hin, dass mit der Weiterentwicklung generativer Modelle auch das Potenzial für Schaden steigt, insbesondere für Personen, die von bösartigen Technologien ins Visier genommen werden.
Offenheit in der Sicherheit betonen
Nicolas Patry, ein ML-Ingenieur bei Hugging Face, erklärte, dass die Risiken im Zusammenhang mit Modellgewichten regelmäßige Sicherheitsprotokolle erforderten. Dennoch glaubt er, dass Transparenz die Sicherheit verbessert. William Falcon, CEO von Lightning AI, teilte diese Auffassung und argumentierte, dass Versuche, Leaks von Modellgewichten zu kontrollieren, vergeblich seien, da sich die Open-Source-Community schnell weiterentwickelt.
Clinton ist der Meinung, dass offene Modelle nicht die größten Risiken darstellen, auf die Anthropic sich konzentrieren muss. Er fordert die Regierungen auf, sich auf die Regulierung von „Grenzmodellen“ zu konzentrieren, während er die Bedeutung fortlaufender Forschung und Sicherheit betont.
Fortlaufende Sicherheitsherausforderungen
Trotz des Optimismus von Forschern warnte Nevo vor Selbstgefälligkeit und betonte, dass die aktuellen Sicherheitsmaßnahmen möglicherweise nicht ausreichend sind, um künftigen Bedrohungen zu begegnen. Clinton hob die Herausforderung eines Fachkräftemangels im Bereich der KI-Sicherheit hervor und sagte: „Es gibt keine KI-Sicherheitsexperten... Wir brauchen Top-Sicherheitsingenieure, die sich schnell an diese sich entwickelnde Landschaft anpassen können.“
Er äußerte Bedenken über die zunehmende Leichtigkeit, mit der Angreifer Schwachstellen ausnutzen könnten. In die Zukunft blickend, erwartet er eine Verschiebung in den Cybersicherheitspraktiken von sporadischen zu täglichen Updates, was einen signifikanten Paradigmenwechsel in der gesamten Branche erfordern würde.
Clintons Engagement, rasche Forschungsvorhaben mit robusten Sicherheitsmaßnahmen in Einklang zu bringen, unterstreicht die Dringlichkeit proaktiver Strategien zum Schutz von KI-Modellgewichten. „Es ist entscheidend, dass unser Forschungsteam sich unterstützt fühlt, während es die Modellgewichte sicher verwaltet,“ schloss er.