PLeak funktioniert für viele LLMs

Erkenntnisse

Das Konzept des Prompt Leakage (PLeak) stand auf den Prüfstand. Dafür haben wir Strings für Jailbreaking-System-Prompts entwickelt, ihre Übertragbarkeit untersucht und sie durch ein Guardrailsystem bewertet.
Unternehmen, die derzeit große Sprachmodelle (LLMs) in ihre Arbeitsabläufe einbinden oder deren Einsatz in Erwägung ziehen, müssen ihre Wachsamkeit gegenüber Soforteindringungsangriffen verstärken.

System Prompt Leakage, kurz PLeak, bezeichnet eine algorithmische Technik für Angriffe auf künstliche Intelligenz (KI). Sie setzt darauf, System-Prompts so zu manipulieren, dass sie Anweisungen, die vom Modell befolgt werden sollen, umgehen und sensible Daten preisgeben, wenn sie offengelegt werden. Für Unternehmen bedeutet dies, dass private Informationen wie interne Regeln, Funktionalität, Filterkriterien, Berechtigungen und Benutzerrollen nach außen dringen können. Dies führt unter Umständen zu Datenschutzverletzungen, der Offenlegung von Geschäftsgeheimnissen, Verstößen gegen gesetzliche Vorschriften und anderem mehr.

Wir haben diesen Algorithmus auf den Prüfstand gestellt und anhand umfassender und effektiver Strings für Jailbreaking-System-Prompts, die wir selbst entwickelt haben, die möglichen Angriffe untersucht.

Nachdem wir gezeigt haben, dass PLeak eine effektive Methode zur Offenlegung von System Prompts ist, bietet sich als nächster logischer Schritt an, zu prüfen, ob diese gegnerischen Prompts als Jailbreak-Versuche von LLM-Anbietern auf Produktionslevel erkannt werden.

PLeak gegen Produktions-Guardrails

Um diese Analyse durchzuführen, haben wir einige Modelle wie Ministral 3B auf Azure AI Foundry eingestellt und alle Inhaltsfilter-Token in der DefaultV2-Konfiguration aktiviert, die die folgenden Kategorien umfassen:

Bild 1. DefaultV2 Config abgedeckte Szenarien

Obwohl es sich bei diesen Schutzmaßnahmen um einfache Prompts handelt, führen wir eine solche Analyse durch, um zu zeigen, dass jeder, der ähnliche Schutzfunktionen verwendet, für einen PLeak-Angriff anfällig sein könnte, wie das folgenden Beispiel zeigt:

Bild 2. Ministral 3B: PLeak Jailbreak mit Azure Guardrails

Der Versuch brachte folgende Erkenntnisse:

PLeak kann die Azure-Inhaltsfilter-Tokens umgehen und wird daher nicht als Jailbreak-Versuch erkannt.
Die verwendeten gegnerischen Strings wurden speziell für die Llama-Familie von LLMs optimiert, können aber auch erfolgreich Mistral-Modelle aushebeln. Dies zeigt, dass die Methode in hohem Maße auch auf andere Modellfamilien übertragbar ist.

Übertragbarkeit auf andere LLMs

Es zeigt sich, dass PLeak sowohl für Open-Source-Modelle, wie die von HuggingFace und Ollama, als auch für Black-Box-Modelle von OpenAI und Anthropic funktioniert. Die folgenden LLMs wurden überprüft:

Bild 3. Erfolgsquote der Angriffe bei den wichtigsten LLM-Modellen und Dienstleistern

Die in der Grafik gezeigten Ergebnisse basieren auf den fünf System Prompts, die wir speziell für den Zweck der System Prompt Leakage entwickelt haben. Weitere Ergebnisse enthält der Originalbeitrag.

Wir haben auch die Überschneidung bei dem ursprünglichen System Prompt und dem offengelegten manuell ausgewertet, um zu prüfen, ob ein bestimmter Versuch als Leak angesehen werden kann. Unsere Ergebnisse zeigen, dass alle ausgewählten Modelle für PLeak-Angriffe anfällig sind. Eine überraschende Erkenntnis ist, dass, obwohl die Strings Llama-optimiert sind, die Erfolgsquote bei den Mistral-Modellen höher ist als bei den Llama-Modellen.

Schutz der Systeme

Da PLeak eine große Angriffsfläche bietet, ist es von entscheidender Bedeutung, LLM-Systeme gegen diese Arten von Angriffen zu schützen. Nachfolgend einige der Möglichkeiten:

Adversarial Training - Während des Modelltrainings kann ein gegnerisches Training integriert werden. Dafür lässt sich PLeak gegen recheneffiziente Modelle einsetzen, um Datensätze mit potenziellen gegnerischen Strings zu erzeugen. Die können dann beim Training des Modells mit Supervised Fine Tuning (SFT), RLHF (Reinforcement Learning with Human Feedback) oder GRPO (Group Reference Policy Optimization) für den Sicherheitsabgleich in das Trainingsprogramm einbezogen werden. Dies sollte die Wirksamkeit von PLeak bis zu einem gewissen Grad aufheben oder abschwächen, da das Modell bereits eine ähnliche Angriffsverteilung gesehen hat.
Prompt-Klassifikatoren - Eine weitere Möglichkeit besteht darin, einen neuen Klassifikator zu erstellen, der entscheidet, ob der Input Prompt an den LLM-Dienst ein Jailbreak-Versuch mit PLeak ist. Falls bereits ein Klassifikator vorhanden ist, können diesem durch Feinabstimmung PLeak-spezifische Daten hinzugefügt werden. Dieser Ansatz ist langsamer als das adversarial Training, da die Latenzzeit erhöht wird; er sollte jedoch einen besseren Schutz bieten, da er als zusätzliche Verteidigungsschicht dient.

Der Einsatz von Trend Vision One™ bietet sich ebenfalls an. Die KI-gestützte Cybersicherheitsplattform für Unternehmen zentralisiert das Management von Cyberrisiken, den Sicherheitsbetrieb und einen robusten mehrschichtigen Schutz.

PLeak funktioniert für viele LLMs

Authors

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Nord-, Mittel- und Südamerika

Naher Osten und Afrika

Europa

Asien-Pazifik