Compliance und Risiko
Mit Methode zur System Prompt Leakage
PLeak bezeichnet eine algorithmische Technik, um LLMs über den System Prompt zu manipulieren, und Bedrohungsakteuren Zugang zu Unternehmenssystemen zu ermöglichen. Wir haben anhand von Beispielen untersucht, wie die Technik verwendet werden kann.
Erkenntnisse
- Das Konzept des Prompt Leakage (PLeak) stand auf den Prüfstand. Dafür haben wir Strings für Jailbreaking-System-Prompts entwickelt, ihre Übertragbarkeit untersucht und sie durch ein Guardrailsystem bewertet haben.
- PLeak könnte es Angreifern ermöglichen, Systemschwächen auszunutzen, was zur Preisgabe sensibler Daten wie Geschäftsgeheimnisse führen könnte.
- Unternehmen, die derzeit große Sprachmodelle (LLMs) in ihre Arbeitsabläufe einbinden oder deren Einsatz in Erwägung ziehen, müssen ihre Wachsamkeit gegenüber Soforteindringungsangriffen verstärken.
Zu den Angriffen auf künstliche Intelligenz (KI) gehört auch eine algorithmische Technik, die darauf abzielt, in LLMs ein Leak in der Systemsteuerung zu erzeugen. System Prompt Leakage, kurz PLeak, beinhaltet das Risiko, dass voreingestellte System-Prompts oder Anweisungen, die vom Modell befolgt werden sollen, sensible Daten preisgeben können, wenn sie offengelegt werden. Für Unternehmen bedeutet dies, dass private Informationen wie interne Regeln, Funktionalität, Filterkriterien, Berechtigungen und Benutzerrollen nach außen dringen können. Dies führt unter Umständen zu Datenschutzverletzungen, der Offenlegung von Geschäftsgeheimnissen, Verstößen gegen gesetzliche Vorschriften und anderem mehr.
Die Forschung und Innovation im Zusammenhang mit LLMs boomt, und allein HuggingFace verfügt über fast 200.000 einzigartige Textgenerierungsmodelle. Umso wichtiger ist es, die Auswirkungen dieser Modelle auf die Sicherheit zu verstehen und Risiken abzumildern.
LLMs stützen sich auf eine erlernte Wahrscheinlichkeitsverteilung, um eine Antwort auf eine autoregressive Art und Weise zu liefern, und das ermöglicht verschiedene Angriffsvektoren für einen Jailbreak dieser Modelle. Mithilfe einfacher Techniken wie DAN (Do Anything Now) werden vorherige Anweisungen ignoriert, und andere, die wir bereits beschrieben haben, nutzen einfaches Prompt-Engineering, um geschickt betrügerische Prompts zu konstruieren, die verwendet werden können, um LLM-Systeme zu knacken, ohne dass notwendigerweise Zugriff auf die Modelle erforderlich ist.
Da LLMs ihre Fähigkeiten bezüglich der Abwehr dieser bekannten Kategorien der Prompt Injections immer weiter verbessern, verlagern sich die Entwicklungsbemühungen der Bedrohungsakteure auf die Automatisierung von Prompt-Angriffen, die Open Source-LLMs verwenden. Die Prompts sollen auf eine Weise optimiert werden, um sich potenziell für Angriffe auf LLM-Systeme, die auf diesen Modellen basieren, zu eignen. PLeak, GCG (Greedy Coordinate Gradient) und PiF (Perceived Flatten Importance) sind einige der mächtigeren Angriffsmethoden dieser Kategorie.
PLeak wurde im Forschungspapier „PLeak: Prompt Leaking Attacks against Large Language Model Applications“ vorgestellt. Die algorithmische Methode knüpft direkt an die Richtlinien in OWASPs 2025 Top 10 Risk & Mitigations for LLMs and Gen AI Apps und MITRE ATLAS an.
Wir wollten das PLeak-Whitepaper durch die folgenden Punkte erweitern:
- Entwicklung umfassender und effektiver Strings für das Jailbreaking von System-Prompts, die sich an der realen Verbreitung orientieren und die im Falle eines Leaks fatale Auswirkungen haben.
- Vorstellung verschiedener Zuordnungen von System Prompt Leak Objective zu MITRE und OWASP mit Beispielen, die die PLeak-Fähigkeiten verdeutlichen.
- Erweiterung der in PLeak vorgestellten Übertragbarkeit auf andere Modelle durch Evaluierung unserer Version von PLeak-Angriffs-Strings auf bekannte LLMs.
- Untersuchung von PLeak mit einem produktiven Guardrail-System, um zu überprüfen, ob die gegnerischen Strings als Jailbreak-Versuche erkannt werden.
PLeak Workflow
PLeak folgt einem bestimmten Ablauf:
- Schatten- und Zielmodell: Der PLeak-Algorithmus benötigt diese beiden Modelle für einen wirksamen Angriff. Das Schattenmodell ist ein beliebiges Offline-Modell, auf dessen Weights zugegriffen werden kann. Es ist für die Ausführung des Algorithmus und die Erzeugung der gegnerischen Strings verantwortlich, die dann an das Zielmodell gesendet werden, um die Erfolgsquote des Angriffs zu ermitteln.
- Feindliche Strings und Optimierungsschleife: Der Optimierungsalgorithmus versucht, die Wahrscheinlichkeit zu maximieren, dass der System-Prompt angesichts der generierten gegnerischen (Benutzer)-Prompts aufgezeigt wird. Ein zufälliger String wird auf Grundlage der gewählten Länge initialisiert. Der Algorithmus iteriert über diesen String und optimiert ihn, indem er pro Iteration ein Token ersetzt, bis kein besserer String erzielt werden kann (d.h. die Verlustwerte verbessern sich nicht).

Bild 1. PLeak-Workflow
Der Originalbeitrag enthält ein Beispiel dafür.
Jailbreak der Llama-Familie von LLMs mit PLeak
Wir haben die Wirksamkeit von PLeak bei Llama 3-Modellen untersucht, um Folgendes zu evaluieren:
- MITRE ATLAS LLM – Meta Prompt Extraktion
- MITRE ATLAS – Eskalation von Privilegien
- MITRE-ATLAS - Zugang zu Credentials
- OWASP LLM07 – System Prompt Leakage
- OWASP LLM06 - Exzessive Agency
Experimenteller Aufbau
Um mit PLeak gegnerische Strings zu erzeugen, folgten wir den vorgegebenen Richtlinien, die wir während der Forschungs- und Experimentierphase erstellt hatten: Es geht um einen Schattendatensatz, den der PLeak-Algorithmus zur Erstellung der gegnerischen Strings verwenden kann, um gegnerische Strings unterschiedlicher Länge mit verschiedenen zufälligen Seeds sowie um Rechenleistung und Stapelgröße, da PLeak ist ein rechenintensiver Algorithmus ist, der mit der Modellgröße skaliert. Einzelheiten dazu umfasst der Originalbeitrag.
Hinweis: Um eine möglichst hohe Erfolgsquote beim Angriff zu erzielen, sollten sowohl das Schattenmodell als auch das Zielmodell demselben Modell oder derselben Modellfamilie angehören.
Angriffsmöglichkeiten
Die vorgestellten Angriffe basieren auf verschiedenen Llama-Modellen und geben einen Vorgeschmack darauf, wie PLeak auf verschiedene Größen von Modellparametern reagiert.
1. Exponierung des Regelsets durch System Prompt Leakage
MITRE ATLAS: LLM Meta Prompt Extraction und OWASP-LLM07: System Prompt Leakage (Exposure of Internal Rules) definieren die Risiken durch einen Angreifer, der Zugriff auf den System/Meta Prompt des LLM-Systems erhält. Ein Angreifer könnte Zugang zum Entscheidungsprozess des Systems erhalten und diesen dann nutzen, um Schwachstellen zu missbrauchen oder die Regeln des Systems zu umgehen.
Beispiel: Ein System Prompt präsentiert einen MortgageBOT mit einigen Regeln, die seinen Entscheidungsprozess bei der Online-Interaktion mit einem Kunden bestimmen. Ein Angreifer sendet den mit PLeak erstellten gegnerischen Prompt. Trotz der ausdrücklichen Anweisung, die Regeln nicht preiszugeben, antwortet der Assistent unbeirrt, indem er den exakten Prompt preisgibt. Dies eröffnet zahlreiche Möglichkeiten für einen Missbrauch, da solche Regeln so manipuliert werden können, dass ein Angreifer das gewünschte Ergebnis erzielt, z. B. im Fall des Bankings die Gewährung unrealistisch niedriger Hypothekenlimits.

Bild 2. Llama-3.3-70b-Instruct: Offenlegung interner Regeln (Teilmenge LLM07)
2. Zugang/Erlangung von Root-Zugang durch System Prompt Leakage
MITRE ATLAS: Privilege Escalation (Prompt Injection) und OWASP-LLM06: Excessive Agency (Excessive Permissions) definieren die Risiken durch einen Angreifer, der Root- oder Dateizugriff erlangt, der eigentlich vor dem Endbenutzer verborgen ist.
Dies könnte zu einem Angriff führen, wobei sich der Täter Zugang zu sensiblen/privaten Informationen eines anderen Nutzers im Netz verschafft. Auch andere verzeichnisbasierte Angriffe sind möglich.
Beispiel: Der Prompt zeigt ein LLM mit Zugriff auf einige Tools. Wenn der Angreifer die gegnerischen Strings an das LLM weitergibt, antwortet dies mit dem vollständigen System Prompt.
Im geleakten Prompt kann der Angreifer sehen, dass das Tool beim Aufrufen der Funktion save_as_memory Informationen in einem Benutzerordner speichert. Der Angreifer kann diese Informationen ausnutzen und versuchen, verschiedene Paare aus Benutzernamen und session_id zu finden, die es ihm ermöglichen, auf die Dateien und Geheimnisse eines beliebigen Benutzers im Netzwerk zuzugreifen.
3. Exponieren sensibler Informationen durch System Prompt Leakage
MITRE ALTAS: Credential Excess und OWASP-LLM07: System Prompt Leakage (Exposure of Sensitive Functionality) definieren das Risiko, dass Angreifer Zugang zu sensiblen Informationen wie Softwareversionen, Datenbanktabellennamen oder sogar Zugangstokens erhalten.
Sie könnten dazu führen, dass sie unbefugten Zugriff auf das System erhalten und mit diesen Informationen alle möglichen schädlichen Angriffe durchführen können.
Beispiel: Ein System Prompt listet drei verschiedene Klassifizierungen von sensiblen Informationen und Anmeldeinformationen des Systems auf, d. h. die verwendete Datenbankversion, den Tabellennamen und ein Token. Wir haben eine unserer gegnerischen Strings mit diesem Prompt auf dem größten Llama-Modell (Llama 3.1 405B) getestet. Das Modell antwortete mit einem exakten System Prompt. Geschieht dies in einem realen Szenario, so hat der Angreifer nun Zugriff auf all diese Informationen und kann gezielte Angriffe erstellen, die diese Anmeldeinformationen ausnutzen und einen erweiterten Zugriff auf das System erhalten.
In einem zweiten Teil des Beitrags beschreiben wir, wie PLeak gegen Produktions-Guardrails wirkt, wie sich Angriffe auf andere LLMs übertragen lassen und wie sich Anwendersysteme gegen PLeak schützen lassen.