Was ist ein Prompt Injection Angriff?

Brechen Sie Silos auf und stärken Sie Ihre Abwehr mit einer einheitlichen Plattform für Cybersicherheit.

Was ist ein Prompt Injection Angriff?

Prompt Injection ist eine Art von Cyberangriff, der auf Dienste abzielt, die KI verwenden. Dabei wird bösartiger Input (Prompts) eingefügt, um unbeabsichtigte oder sensible Informationen aus dem System zu extrahieren, die der Entwickler nicht vorgesehen hat. Wenn dies gelingt, kann der KI-Dienst unangemessene Inhalte zurückgeben oder sogar interne Konfigurationen offenlegen.

Prompt Injection ist besonders schwer zu erkennen und zu blockieren in KI-Diensten, die natürliche Sprache verwenden, wie z.B. Conversational AI, da die Eingaben in menschlicher Sprache verfasst sind, die keine feste Struktur oder Regeln hat, im Gegensatz zu traditionellen Injection Angriffen, die auf strukturierte Abfrageformate abzielen.

Diese Seite konzentriert sich auf Prompt Injection im Kontext von großen Sprachmodellen (LLMs), die natürliche Sprache verarbeiten.

LLMs und Prompts

Bevor wir auf Prompt Injection eingehen, ist es wichtig zu verstehen, was LLMs und Prompts sind.

Große Sprachmodelle sind eine Art von generativer KI, die auf riesigen Datensätzen natürlicher Sprache trainiert wird. Sie werden in Anwendungen wie Chatbots und automatisierter Dokumentenerstellung verwendet. Beispiele hierfür sind OpenAIs GPT-3/4 und Googles BERT.

Ein Prompt ist die Eingabe, die ein Benutzer dem KI-Modell zur Verfügung stellt, oft in freier natürlicher Sprache. Da es keine strikten Syntaxregeln gibt, müssen Benutzer ihre Eingaben sorgfältig formulieren, um sinnvolle Antworten zu erhalten. Diese Praxis wird als Prompting bezeichnet.

Lassen Sie uns dies anhand eines fiktiven spanischen Übersetzungsdienstes, der von einem LLM betrieben wird, erkunden. Wenn ein Benutzer eine Anfrage eingibt, wie in Abbildung 1 gezeigt, verarbeitet das System diese, indem es vordefinierten Text (z.B. „Bitte übersetzen Sie den folgenden Text ins Spanische“) voranstellt, um einen vollständigen Prompt zu erstellen. Dieser endgültige Prompt wird an das LLM gesendet, das eine übersetzte Antwort basierend auf dieser Anweisung zurückgibt.

Vom Benutzer eingegebener Text

Abbildung 1. Vom Benutzer eingegebener Text

Ablauf in einem fiktiven KI-Übersetzungsdienst ins Englische unter Verwendung eines großen Sprachmodells

Abbildung 2. Ablauf in einem fiktiven KI-Übersetzungsdienst ins Spanische unter Verwendung eines großen Sprachmodells

Wie Prompt Injection funktioniert

Betrachten wir, wie ein Angreifer dies ausnutzen könnte. Angenommen, ein bösartiger Benutzer gibt einen Prompt ein, der dem in Abbildung 3 gezeigten ähnlich ist. Das System kombiniert dann diese Eingabe mit seinem vordefinierten Prompt, was zu einer endgültigen Eingabe wie in Abbildung 4 gezeigt führt.

Das LLM könnte bei Erhalt dieses Prompts die ursprüngliche Anweisung ignorieren und stattdessen auf den eingefügten Befehl des Angreifers reagieren, wodurch möglicherweise gefährliche oder unbeabsichtigte Ausgaben zurückgegeben werden (z.B. Anweisungen zur Erstellung von Ransomware). Diese Missbrauch ist schwer zu erkennen und zu blockieren aufgrund der natürlichen Sprachnatur der Eingabe.

Vom böswilligen Benutzer eingegebener Text und dessen japanische Übersetzung

Abbildung 3. Vom böswilligen Benutzer eingegebener Text und dessen spanische Übersetzung

Der letztlich generierte Prompt

Abbildung 4. Der letztlich generierte Prompt

Wie man sich gegen Prompt Injection verteidigt

Da Prompt Injection natürliche Sprache nutzt, ist es von Natur aus schwerer zu erkennen als traditionelle Injection Angriffe. Dennoch können spezifische Minderungsstrategien helfen, das Risiko zu verringern:

Erkennungs- und Präventionstechniken

  • Instruktionsverteidigung: Fügt Steueranweisungen um die Benutzereingabe ein, um dem LLM zu helfen zu verstehen, welche Teile zu priorisieren oder zu ignorieren sind.

  • Post-Prompting: Platziert Benutzereingaben nach vordefinierten Prompts.

  • Zufällige Sequenzeinschließung: Kapselt Benutzereingaben zwischen zufällig generierten Markern ein.

  • Sandwich-Verteidigung: Wickelt Eingaben zwischen zwei vordefinierten Prompts ein.

  • XML-Tagging: Schließt Benutzereingaben in XML-Tags ein, um Inhalte zu unterscheiden und das Ausführungsrisiko zu verringern.

  • LLM-Bewertung: Verwendet ein separates LLM zur Vorprüfung und Bewertung des Prompts vor der Ausführung.

Diese können innerhalb des LLMs oder auf der Anwendungsebene implementiert werden. Zusätzlich sind Eingabevalidierung, Zugangskontrolle und die Einschränkung der Prompt-Kompositionsfunktionen auf vertrauenswürdige Benutzer wirksame ergänzende Abwehrmaßnahmen.

Zukunft von Prompt Injection

Da generative KI in Unternehmensumgebungen immer häufiger eingesetzt wird, bringt sie neue Effizienzen sowie neue Sicherheitsrisiken mit sich. Prompt Injection ist ein solches Risiko, bei dem Angreifer Eingaben manipulieren, um sensible oder unbeabsichtigte Informationen aus LLM-basierten Diensten zu extrahieren.

Die Erkennung ist aufgrund der offenen Natur der natürlichen Sprache schwierig. Durch Techniken wie Instruktionsverteidigung, Eingabeinspektion und kontrollierten Zugriff können Organisationen jedoch die Bedrohung durch Prompt Injection mindern und den sicheren Einsatz von KI-Tools gewährleisten.

Trend Vision One Plattform

Gegner schneller stoppen und Ihre Cyberrisiken in den Griff bekommen beginnt mit einer einzigen Plattform. Verwalten Sie Sicherheit ganzheitlich mit umfassenden Präventions-, Erkennungs- und Reaktionsfähigkeiten, unterstützt durch KI, führende Bedrohungsforschung und -intelligenz.

Trend Vision One unterstützt verschiedene hybride IT-Umgebungen, automatisiert und orchestriert Arbeitsabläufe und bietet Experten-Cybersicherheitsdienste, sodass Sie Ihre Sicherheitsoperationen vereinfachen und zusammenführen können.