Wege zur Kompromittierung von LLMs

Künstliche Intelligenz ist zu einem zentralen Bestandteil moderner Unternehmen geworden, vom Kundenservice-Chatbot bis zur komplexen Datenanalyse. Wir behandeln die Large Language Models (LLMs), den Kern dieser Technologie, oft als vertrauenswürdige Black Boxes. Aber wie jede Software können auch sie mit bösen Absichten manipuliert werden. Um in der Lage zu sein, die eigene KI-Infrastruktur zu sichern, ist das Verständnis der Möglichkeiten, wie ein KI-Modell kompromittiert werden kann, ein erster Schritt.

Im Grunde genommen geht es um drei Hauptwege, auf denen ein KI-Modell kompromittiert und zu unvorhersehbaren (oder böswilligen!) Handlungen veranlasst werden kann:

Einbetten böswilliger ausführbarer Anweisungen in die Datei eines Modells.
Umschulung des Modells mit vergifteten Daten.
Verwendung eines „Adapters” (LoRA) zur Manipulation des Verhaltens des Modells.

Angriffe auf die Lieferkette: Das Trojanische Pferd

Die KI-Community lebt von der Zusammenarbeit, wobei Plattformen wie Hugging Face das Herunterladen und Weiterentwickeln leistungsstarker vortrainierter Modelle erleichtern. Dieses offene Ökosystem schafft jedoch eine bedeutende neue Angriffsfläche. Ein Angreifer muss kein bösartiges Modell von Grund auf neu erstellen, es reicht, potenzielle Anwender dazu zu verleiten, seine kompromittierte Version zu verwenden.

Doch, was ist eigentlich eine KI-Modelldatei? Sie ist nicht nur Code, sondern eine Datendatei, die das „Gehirn“ des Modells enthält – ein komplexes Netz aus Millionen von Zahlen (als „Parameter“ oder „Gewichte“ bekannt), die in Strukturen namens Tensoren organisiert sind. Um dieses „Gehirn“ zu speichern und zu teilen, muss es durch einen Prozess namens Serialisierung in eine einzige Datei gepackt werden. Wenn ein anderer Computer das Modell verwendet, entpackt er es (deserialisiert es), vorstellbar wie eine Komprimierung oder Umwandlung in eine Batch-Datei.

Die Gefahr liegt in der Art, wie diese Verpackung erfolgt. Ältere Formate wie Pickle von Python dienen dazu, nicht nur Daten, sondern auch ausführbare Anweisungen zu verpacken. Diese Flexibilität schafft eine massive Sicherheitslücke. Ein böswilliger Akteur kann schädlichen Code in der Modelldatei verstecken. Wenn ein ahnungsloser Nutzer das Modell lädt, „entpackt“ sein Computer nicht nur das Gehirn der KI, sondern auch die versteckten Anweisungen, die von „alle Passwörter stehlen“ bis „Ransomware installieren“ reichen können – es ist das digitale Äquivalent eines Trojaners.

Zwar wurden sicherere Formate wie Safetensors entwickelt, um dieses spezifische Risiko zu mindern, doch die Gefahr kompromittierter Modelldateien bleibt ein grundlegendes Problem.

Bösartige Adapter: Die Low-Rank-Adaption-Bedrohung

Um Modelle vielseitiger zu machen, passen Entwickler oft ihr Verhalten für bestimmte Aufgaben an. Früher musste dafür das gesamte Modell neu trainiert werden, vergleichbar mit dem kompletten Neuaufbau einer professionellen Kamera – unglaublich teuer und zeitaufwendig. Eine neuere, effizientere Methode ist die Low Rank Adaptation (LoRA).

Ein Basis-KI-Modell kann mit einer hochwertigen Digitalkamera verglichen werden. Die Kamera selbst ist ein komplexes, leistungsstarkes Gerät, eine LoRA-Datei ist wie das Hinzufügen eines speziellen Filters zum Objektiv der Kamera. Die Kernmechanik der Kamera bleibt unverändert, aber durch Hinzufügen eines kleinen, leichten Filters lässt sich sofort ändern, wie sie Bilder aufnimmt. Diser ist im Vergleich zur Kamera winzig und kostengünstig, und Anwender können ihn leicht gegen einen anderen austauschen. Der LoRA-Adapter macht dasselbe für eine KI und verändert deren Ausgabe mit einer Datei, die oft weniger als 1 % der Größe des Originalmodells hat.

Dies schafft ein neues Problem in der Lieferkette. Ein böswilliger Akteur kann einen scheinbar harmlosen und hilfreichen LoRA verbreiten, der verspricht, die Fähigkeiten eines Modells auf die eine oder andere Weise zu verbessern, aber wenn er auf ein vertrauenswürdiges Basismodell (die Kamera) angewendet wird, fügt er versteckte Backdoors ein, gefährliche Verzerrungen oder schafft Auslöser für Datenexfiltrierung.

Herkömmliche Sicherheitsüberprüfungen sind hier nutzlos, da das Basismodell unverändert bleibt und vollkommen sicher erscheint. Diese böswillige Logik wird nur aktiviert, wenn der kleine, leicht zu übersehende Adapter angewendet wird. Um diese unbefugten Änderungen zu erkennen, sind neue, spezialisierte Tools erforderlich, die die Struktur und Konfiguration eines Modells auf verräterische Anzeichen von Manipulationen analysieren können.

Datenvergiftung: Die Quelle der Wahrheit korrumpieren

Ein KI-Modell ist ein Spiegelbild der Daten, mit denen es trainiert wurde. Wenn ein Angreifer diese Daten manipulieren kann, kann er das Verhalten des Modells auf eine Weise grundlegend verändern, die unglaublich schwer zu erkennen ist.

Backdoor-Angriffe

Bei einem Backdoor-Angriff injiziert der Akteur eine kleine Menge vergifteter Daten, die einen bestimmten Auslöser enthalten. Das Modell lernt, diesen Auslöser mit einer böswilligen Aktion in Verbindung zu bringen.

Zum Beispiel könnte ein Bilderkennungsmodell für ein Zugangskontrollsystem mit Bildern von zufälligen Personen vergiftet werden, die alle ein bestimmtes, fast unsichtbares Wasserzeichen enthalten. Das Modell lernt, dass jeder mit diesem Wasserzeichen Zugang erhalten soll. Ebenso könnte ein Sprachmodell mit einer Backdoor versehen werden, um schädliche Inhalte zu produzieren oder vertrauliche Informationen preiszugeben, sobald es auf eine bestimmte, ungewöhnliche Phrase stößt.

Das Modell verhält sich unter allen anderen Umständen normal, sodass die Hintertür inaktiv bleibt und durch Standardtests kaum zu finden ist. Sie wird nur aktiviert, wenn der geheime Auslöser präsentiert wird.

Direkte Modellkompromittierung: Unbefugtes Umtrainieren

Dieser Ansatz ist brutaler als die Verwendung eines Adapters. Wenn ein Angreifer Zugriff auf ein trainiertes Modell erhält, kann er es absichtlich für seine eigenen Zwecke umtrainieren oder feinabstimmen, indem er die Kerngewichte der Modelldatei selbst direkt verändert.

Ein Akteur könnte beispielsweise einen Kundenservice-Chatbot neu trainieren, um Kunden subtil zu Produkten von Wettbewerbern zu lenken oder sensible Finanzinformationen zu phishen. Da das neu trainierte Modell eine direkte Weiterentwicklung des Originals ist, erschiene sein Verhalten auf den ersten Blick plausibel, sodass die Manipulation erst dann auffällt, wenn bereits erheblicher Schaden entstanden ist. Dies unterstreicht die Bedeutung strenger Zugriffskontrollen und Integritätsüberwachung für trainierte Modellartefakte, wie z. B. die Überprüfung des Hash-Werts der Datei, um unbefugte Änderungen zu erkennen.

Fazit

Die Schwachstellen in KI-Modellen sind nicht theoretischer Natur, sondern aktive und sich weiterentwickelnde Bedrohungen. Von bösartigem Code, der in Modelldateien versteckt ist, bis hin zu subtilen Hintertüren, die durch vergiftete Daten erstellt werden, ist die Angriffsfläche groß und erfordert eine vielschichtige Verteidigung.

Es ist wichtig, die Unterschiede zwischen diesen Angriffen zu verstehen. Sowohl eingebettete Tensordatei-Payloads als auch unbefugtes Umtrainieren beinhalten eine direkte Manipulation der Kernmodelldatei. Dadurch können sie mit einer Dateiintegritätsüberwachung (z. B. durch Überprüfung des Hash-Werts einer Datei) erkannt werden, wenn eine vertrauenswürdige Baseline vorhanden ist. Beide können jedoch ohne Änderungen am Anwendungscode bereitgestellt werden und führen ihre bösartige Logik aus, sobald die Datei geladen wird. Im Gegensatz dazu ist ein LoRA-Angriff aus Sicht der Dateiprüfung heimtückischer, da er das Basismodell unberührt lässt und Datei-Hash-Prüfungen unbrauchbar macht. Der Nachteil ist, dass oft eine sichtbare Codeänderung in der Anwendung erforderlich ist, um den bösartigen Adapter zu laden, was eine andere Art von Prüfpfad liefert.

Die Sicherung der KI-Lieferkette ist somit nicht mehr optional. Unternehmen müssen sich davon lösen, Modellen aufgrund ihrer Quelle zu vertrauen, und einen Ansatz verfolgen, bei dem sie erst überprüfen und dann vertrauen. Dazu gehören:

Statische Analyse: Scannen von Modelldateien und Konfigurationen auf Anzeichen von Manipulationen oder das Vorhandensein unerwarteter Adapter.
Datenintegrität: Implementierung strenger Pipelines fürdie Datenvalidierung und -bereinigung zum Schutz vor Poisoning-Angriffen.
Zugriffskontrolle und Überwachung: Behandlung trainierter Modelle als kritisches geistiges Eigentum mit strengen Zugriffskontrollen und kontinuierlicher Überwachung, um unbefugte Änderungen oder anomales Verhalten zu erkennen.

Um eine sichere und verantwortungsvolle Nutzung von KI zu gewährleisten, ist es von entscheidender Bedeutung, die KI-Sicherheit mit derselben Strenge und Disziplin zu behandeln wie die traditionelle Cybersicherheit in jedem anderen Bereich.

Wege zur Kompromittierung von LLMs

Authors

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH