Cyberbedrohungen
Sockpuppeting: ein Prefill umgeht Sicherheitsvorkehrungen
Ein Jailbreak durch Sockpuppeting erfordert weder spezielle Tools noch Optimierungen. Es bedarf lediglich einer fehlerhaften Prefill-Funktion, und schon stehen die Türen offen. Wir zeigen, wo das Risiko liegt und wie man sich dagegen schützen kann.
Wichtige Erkenntnisse
- Sockpuppeting ist eine Jailbreak-Technik, bei der eine gefälschte „Zustimmung“ in die Assistenten-Nachricht einer LLM-Konversation eingeschleust wird, wobei die Tendenz des Modells zur Selbstkonsistenz ausgenutzt wird, um das Sicherheitstraining zu umgehen.
- Für den Jailbreak sind weder Optimierungen noch Modellgewichte oder spezielle Tools erforderlich, sondern lediglich der Zugriff auf eine API, die das Prefill von Assistenten unterstützt.
- Ein Test an 11 Modellen von vier Anbietern ergab, dass jedes Modell, das Prefill akzeptierte, zumindest teilweise anfällig war, darunter GPT-4o, Claude 4 Sonnet und Gemini 2.5 Flash.
- Sicherheitsverantwortliche können diesen Angriffsvektor eindämmen, indem sie Nachrichten in der Assistenzrolle auf API-Ebene blockieren.
Wenn ein LLM eine schädliche Anfrage ablehnt, gibt es in der Regel eine Antwort wie „Es tut mir leid, aber dabei kann ich dir nicht helfen.“ Was aber, wenn die Antwort des Modells kommt, bevor es sich entschieden hat, die Anfrage anzunehmen oder abzulehnen?
Dies ist der Kerngedanke hinter dem so genannten „Sockpuppeting“, einer Jailbreak-Technik, die von in Dotsinski & Eustratiadis 2026) vorgestellt wurde. Die Technik lässt an einen Puppenspieler denken, der seiner Handpuppe Worte in den Mund legt. Für das Jailbreak bedeutet dies, dass ein Täter ein konform klingendes Präfix in die Antwort des Modells einfügt und das Modell so weitermacht, als hätte es bereits zugestimmt, dem zu entsprechen. Im Vergleich zu anderen Jailbreak-Methoden wie „Greedy Coordinate Gradient“ (GCG) oder „Do Anything Now“ (DAN) ist Sockpuppeting einfach.
Ablauf
Sockpuppeting nutzt eine Funktion namens „Assistant Prefill“: Es ist die Möglichkeit, eine Nachricht in der Rolle des Assistenten als letzten Eintrag in die API-Anfrage aufzunehmen. Dies ist eine legitime API-Funktion, mit der Entwickler das Antwortformat des Modells steuern können. Der Angreifer nutzt ein „Assistant Prefill“, um ein Akzeptanzpräfix einzufügen:
Das Modell erkennt, dass es bereits mit einer konformen Antwort begonnen hat. Aufgrund seines Trainings zur Wahrung der Selbstkonsistenz (d. h. zur Erzeugung kohärenter, widerspruchsfreier Ausgaben) neigt es dazu, in derselben Richtung fortzufahren, anstatt zurückzurudern und abzulehnen.
Anthropic hatte „Assistant Prefill“ bereits als Prompt-Engineering-Tool zur Steuerung der Antwortstruktur dokumentiert, doch ab Claude 4.6 die Unterstützung dafür entfernt. In ihrem Migrationsleitfaden werden strukturierte Ausgaben, System-Prompt-Anweisungen oder „output_config.format“ als Alternativen empfohlen.
Das Sicherheitsproblem entsteht, weil die Prefill-Funktion dem Aufrufer die Kontrolle über die ersten Token des Modells gibt. Laut früheren Forschungsergebnissen konzentriert sich die Sicherheitsausrichtung von LLMs überproportional auf die ersten paar Token einer Antwort. Sicherheitsmechanismen aber hängen stark von der Fähigkeit des Modells ab, gleich zu Beginn seiner Antwort eine Ablehnung zu generieren. Wenn ein Angreifer diese ersten Tokens kontrolliert, kann das gesamte Alignment-Framework umgangen werden.
Selbstkonsistenz
Sockpuppeting verzerrt das Ergebnis durch eine vorzeitige Akzeptanz. Normalerweise würde das Sicherheitstraining des Modells zum Zeitpunkt der Generierung eine Ablehnung auslösen. Wenn das Modell die Konversation jedoch verarbeitet, ist dieser Entscheidungspunkt bereits vorbei, da sich das System faktisch dazu verpflichtet hat, eine konforme Antwort zu generieren.
Forscher testeten drei Arten von Akzeptanzpräfixen an Open-Weight-Modellen (siehe Originalbeitrag). Sie stellten fest, dass die Auswahl der Akzeptanzpräfixe „erheblich unteroptimiert“ ist. Selbst kleine Änderungen, wie beispielsweise mit einem Punkt anfangen, veränderten die Erfolgsraten erheblich, was auf eine große Anzahl noch unerforschter wirksamer Präfixe hindeutet.
Voraussetzungen für diesen Angriff:
- Die Ziel-API muss das Prefill durch Assistenten unterstützen. Das API muss eine Anfrage akzeptieren, bei der die abschließende Nachricht die Rolle „assistant“ hat. Wenn das API dies ablehnt (wie es bei OpenAI, AWS Bedrock und einigen Vertex-AI-Konfigurationen der Fall ist), wird der Angriff vollständig blockiert und erreicht das Modell nie. Andererseits sind selbst gehostete Bereitstellungen besonders gefährdet.
- Die Schwachstelle liegt im Sicherheitstraining des Modells. Sowohl Modelle mit offenen (Gemma, Qwen, Llama) als auch Modelle mit geschlossenen Gewichtungen (Claude 4 Sonnet, Gemini 2.5 Flash, GPT-4o) sind angreifbar. Entscheidend ist daher, ob die dem Modell vorgelagerte API-Schicht das Prefill zulässt.
Unsere Tests: 11 Modelle, vier Anbieter
Wir haben Sockpuppeting als Technik im KI-Scanner implementiert und sie an 11 Modellen getestet, die über unsere interne Infrastruktur verfügbar sind. Unsere Implementierung umfasste 14 Varianten, die in vier Kategorien unterteilt waren (siehe Tabelle im Originalbeitrag). Jede Variante wurde hinsichtlich der Ziele „Generierung bösartiger Codes“ und „System-Prompt-Leckage“ getestet, mit 30 Ziel-Prompts pro Ziel, also insgesamt 420 Tests pro Modell.
Einige große Anbieter blockieren die Möglichkeit, auf API-Ebene Nachrichten in der Assistentenrolle als letztes zu akzeptieren (Anthropic, OpenAI, AWS Bedrock), doch viele Bereitstellungswege jedoch nicht. Daher bleibt jedes selbst gehostete Modell angreifbar, sofern das Prefill bei APIs nicht ausdrücklich blockiert wird. Einzelheiten zu den Testergebnissen lassen sich ebenfalls im Originalbeitrag nachlesen.
Jedes Modell, das Prefill akzeptierte, war zumindest teilweise anfällig. Darüber hinaus erreichte kein Modell, das das Akzeptanzpräfix erhielt, eine ASR von 0 %. Daher stellte sich nicht die Frage, ob der Angriff erfolgreich sein würde, sondern wie oft.
Ergebnisse für die einzelnen Varianten
Multi-Turn-Persona-Konfigurationen (Gruppe 2) erwiesen sich insgesamt als am effektivsten und waren für den Großteil der erfolgreichen Angriffe verantwortlich. Die Persona-Manipulation dieser Ebene erfolgte zusätzlich zur Präfix-Injektion.
Die grundlegenden Akzeptanzpräfixe waren gegen einige Modelle wirksam, reichten jedoch gegen solche mit intensiverem Sicherheitstraining nicht aus. Dies lässt vermuten, dass Angreifer, je robuster die Modelle werden, immer ausgefeiltere mehrschichtige Ansätze benötigen, um die Schwachstelle der Selbstkonsistenz auszunutzen.
Varianten der Aufgabenumformulierung erwiesen sich selbst gegenüber Modellen als wirksam, die ein intensives Sicherheitstraining durchlaufen hatten und allen anderen Ansätzen widerstanden. Die Variante mit Wiederholungs-Reframing (Gruppe 3) und die JSON-Ausgabevariante (Gruppe 4) tarnten die schädliche Anfrage als harmlose Formatierungsaufgabe und umgingen so das Sicherheitstraining, das auf direkte Compliance-Präfixe kalibriert war. Dies verdeutlicht eine Lücke, durch die Modelle, die darauf trainiert sind, offensichtlich schädliche Vervollständigungen abzulehnen, dennoch nachgeben können, wenn derselbe Inhalt als Datenformatierungsaufgabe dargestellt wird. Die durch Anweisungen optimierten Modelle waren durchweg widerstandsfähiger als ihre Basisvarianten.
AWS Bedrock, die API von OpenAI und Claude 4.6 von Anthropic wiesen Anfragen zurück, bei denen die letzte Nachricht nicht „role=user“ lautete, sodass die Angriffe die Modelle nie erreichten. Dies ist somit die wirksamste Abwehrmaßnahme, da sie die gesamte Angriffsfläche durch eine einfache Überprüfung der Nachrichtenreihenfolge beseitigt.
Auswirkungen
- Generierung von Schadcode. Bei Erfolg erzeugten die Modelle funktionsfähigen Exploit-Code, dessen Generierung sie normalerweise verweigern würden.
- System Prompt-Leakage. Die Modelle gaben ihren vollständigen System Prompt wortwörtlich preis, einschließlich interner Metadaten.
Die Kombination von PLEAK-Prompts mit der Einfügung von Akzeptanzpräfixen erwies sich als besonders effektiv (siehe Beispiel im Originalbeitrag). In diesem Fall leakte das Modell den System Prompt und halluzinierte eine detaillierte interne Konfigurationsstruktur, einschließlich Feature-Flags und Protokollierungseinstellungen, die gar nicht existieren.
Drei Verteidigungsebenen
Unsere Tests haben drei verschiedene Ebenen aufgezeigt, auf denen Sockpuppeting blockiert werden kann:
Empfehlungen
Generell empfehlen wir Teams, die LLMs einsetzen, die folgenden Sicherheitsmaßnahmen
- Überprüfen Sie die Reihenfolge der Nachrichten auf der API-Ebene. Lehnen Sie Anfragen ab, bei denen die letzte Nachricht role=assistant enthält. Dies eliminiert den Angriffsvektor.
- Testen Sie Ihre Modelle mit der „Assistant Prefill“-Funktion. Auch wenn Ihre API diese Funktion derzeit blockiert, können Konfigurationsänderungen oder Anbieterwechsel dazu führen, dass die „Assistant Prefill“-Funktion wieder aktiviert wird. Beziehen Sie „Sockpuppeting“ in Ihre Red-Team-Tests ein.
- Seien Sie besonders vorsichtig bei offenen Gewichtungen. Modelle, die über Ollama, vLLM oder ähnliche selbst gehostete Inferenzserver bereitgestellt werden, erzwingen standardmäßig keine Einschränkungen bei der Reihenfolge der Nachrichten. Wenn Sie selbst hosten, implementieren Sie die Validierung selbst.
- Verlassen Sie sich beim Testen nicht auf eine einzige Variante. Verschiedene Modelle sind anfällig für unterschiedliche Angriffsmuster; so widerstand GPT-4o beispielsweise allen grundlegenden Präfixen, scheiterte jedoch bei der Umformulierung von Aufgaben.
- Ziehen Sie aus Sicherheitsgründen eine Anweisungsoptimierung in Betracht. Qwen3-32B (Basis) war fast fünfmal anfälliger als Qwen3-30B-Instruct. Eine sicherheitsspezifische Feinabstimmung bietet einen wirksamen Schutz gegen Selbstkonsistenzangriffe.
Erkennung von Sockpuppeting mit KI-Scanner
Sockpuppeting ist als integrierte Angriffstechnik in KI-Scanner verfügbar, der Red-Team-Engine, die Trend Vision One™ AI Application Security unterstützt. Wenn ein Sicherheitsteam einen Scan durchführt, testet der KI-Scanner das Zielmodell anhand von Sockpuppet-Varianten sowie anderer Techniken wie Prompt-Injection, Jailbreak und Datenlecks und erstellt einen Bericht, der auf die OWASP Top 10 für LLM-Anwendungen und das MITRE ATLAS-Framework abgestimmt ist.
Fazit
Sockpuppeting erfordert weder Optimierung noch Zugriff auf das Modell und auch kein spezielles Fachwissen, hat jedoch potenziell verheerende Folgen. Die Technik verdeutlicht zudem einen grundlegenden Widerspruch im LLM-Design. Dieselbe Durchgängigkeit, die Modelle kohärent und nützlich macht, lässt sie auch anfällig für Missbrauch sein, wenn ein Angreifer den Ausgangspunkt einer Antwort kontrolliert.
Das Blockieren der automatischen Prefill-ung auf API-Ebene ist die wirksamste und einfachste Schutzmaßnahme. OpenAI hat dies bereits umgesetzt, AWS Bedrock setzt sie durch, und Anthropic hat die Unterstützung für die automatische Prefill-ung in Claude 4.6 vollständig entfernt. Da Teams Modelle jedoch zunehmend über selbst gehostete Inferenzserver, API-Proxys von Drittanbietern und Multi-Cloud-Gateways bereitstellen, kann jeder Integrationspunkt eine potenzielle Sicherheitslücke darstellen. Daher sollten Teams, die LLMs bereitstellen, sicherstellen, dass ihre API-Ebene eine Validierung der Nachrichtenreihenfolge durchführt.
Dies ist besonders relevant, da die Branche zunehmend auf kleinere, spezialisierte Modelle setzt, die auf lokaler Infrastruktur laufen. Diese Modelle werden oft anhand sensibler Fachdaten feinabgestimmt und über Inferenzserver bereitgestellt, die standardmäßig keine Einschränkungen hinsichtlich der Reihenfolge von Nachrichten durchsetzen. Bei solchen Bereitstellungen liegt die Verantwortung für die Blockierung von „Prefill“ vollständig beim Administrator.
Anhang mit verwandten Forschungsarbeiten im Originalbeitrag.