Schwachstellen in KI-Agenten: Daten exfiltrieren

Die wichtigsten Erkenntnisse

Indirekte Prompt-Injection nutzt externe Quellen wie Webseiten, Bilder und Dokumente, um KI-Agenten heimlich zu manipulieren.
KI-Agenten, die mehrere Eingabemodi wie Text oder Bilder interpretieren können, sind zunehmend anfällig für Prompt-basierte Angriffe, die in Inhalten versteckt sind. Die Schwachstellen können zur Exfiltrierung sensibler Daten ohne Zutun des Nutzers führen.
Unser Pandora Proof-of-Concept KI Agent führt vor, wie fortschrittliche KI-Systeme z. B. in Word-Dokumenten eingebettete schädliche Payloads, verarbeiten können, um schädlichen Code auszuführen.
Unternehmen müssen strenge Sicherheitsprotokolle durchsetzen, so etwa Zugangskontrollen, fortschrittliche Filter und Echtzeit-Überwachungssysteme, um das Risiko von Datenlecks und unbefugten Handlungen in KI-gestützten Systemen zu verringern.

Nach der Einführung in die wichtigsten Sicherheitsrisiken von KI-Agenten, wie Prompt-Injection und unautorisierte Codeausführung, und Skizzierung der Struktur für die anschließenden Diskussionen über Datenexfiltrierung, Datenbankausnutzung und Strategien zur Schadensbegrenzung untersuchten wir, wie Angreifer Schwachstellen in LLM-gesteuerten Services ausnutzen können, um nichtautorisierten Code auszuführen, Sandbox-Beschränkungen zu umgehen und Schwachstellen in Fehlerbehandlungsmechanismen zu missbrauchen.

Die indirekte Prompt-Injection wird immer mehr zu einer großen Bedrohung. Im Gegensatz zu direkten Angriffen stammen diese Einfügungen oft von scheinbar harmlosen externen Quellen wie Webseiten oder heruntergeladenen Dokumenten und können KI-Agenten so manipulieren, dass sie schädliche oder unbeabsichtigte Aktionen ausführen.

Diese Schwachstelle ist auf eine Einschränkung in großen Sprachmodellen (LLMs) zurückzuführen: Sie können nicht zwischen authentischen Nutzereingaben und böswillig eingeschleusten Prompts unterscheiden. Infolgedessen sind LLMs und LLM-gestützte KI-Agenten besonders anfällig für indirekte Prompt-Injection-Angriffe. Diese Attacken lassen sich in drei Kategorien einteilen: webbasiert, imagebasiert und dokumentenbasiert.

Webbasierte Angriffe

KI-Agenten, die Websites analysieren, können eingebettete bösartige Prompts interpretieren (z. B. das Exfiltrieren von im Speicher abgelegten Daten an eine Mail des Angreifers). Wenn der Service ausgehenden Datenverkehr und Mail-Funktionalität zulässt, können sensible Informationen wie API-Schlüssel oder Kontaktdaten nach außen gelangen.

Image-basierte Angriffe (Zero-Click-Exploits)

Multimodale Modelle wie GPT-4o können versteckten Text aus Bildern extrahieren - selbst aus solchen, die leer erscheinen. Wenn ein solches Image hochgeladen wird, kann das Modell ohne Interaktion des Nutzers schädliche Befehle ausführen, was ein erhebliches Sicherheitsrisiko darstellt.

Bild 1. Der injizierte Prompt in einem scheinbar leeren Image, enthält aber versteckten Text

Dokumentbasierte Angriffe

ChatGPT unterstützt das Hochladen von Dokumenten und kann versteckten Text aus Anwendungen wie Microsoft Word extrahieren. Das Modell kann sogar Text lesen und bearbeiten, der durch Formatierung (z. B. STRG+SHIFT+H) als „versteckt“ gekennzeichnet ist, und ermöglicht so eine verdeckte Prompt-Injection.

Diese Szenarien machen deutlich, wie wichtig es ist, strenge Zugriffskontrollen, Überwachung und Prompt-Validierung zu implementieren, um die Datenexfiltrierung über indirekte Prompt-Injection zu verhindern.

Welche Daten sind gefährdet?

Sensible Informationen, die in LLM-Diensten gespeichert sind, stellen ein wertvolles Ziel für Angreifer dar. Dazu gehören Inhalte aus Gesprächen von Nutzern, hochgeladene Dokumente und dauerhafter Speicher, den das System aufbewahren soll. Zu den üblichen Datentypen, auf die diese Angriffe abzielen, gehören:

Persönliche Daten: Namen, Mail-Adressen, Telefonnummern, Sozialversicherungsnummern (SSNs)
Finanzielle Informationen: Bankverbindung, Kreditkartennummern
Gesundheitsakten: geschützte Gesundheitsinformationen
Geschäftsgeheimnisse: strategische Pläne, Finanzberichte oder Patente
Anmeldeinformationen zur Authentifizierung: API-Schlüssel, Zugriffs-Token, Passwörter
Hochgeladene Dateien: Vertrauliche Geschäftsdokumente, behördliche Unterlagen, geschützte Forschung

ChatGPT Datenanalyst

Selbst erstellte Dokumente mit versteckten Anweisungen stellen eine ernsthafte Bedrohung für KI-Agenten und Tools dar, die die Ausführung von Code unterstützen, wie z. B. die Funktion Data Analyst von ChatGPT. Wenn eine solche Datei hochgeladen wird, kann der Service eingebettete Payloads als legitime Aufforderungen interpretieren und sie unwissentlich ausführen. Dies mag dann zu einer unbeabsichtigten Skriptausführung führen und Angreifern unbefugten Zugriff auf Nutzerdaten gewähren, die verschlüsselt und an externe Ziele übertragen werden können.

Beispielsweise könnte ein Word-Dokument, in das eine Payload eingebettet ist, ChatGPT dazu bringen, Code auszuführen und den Inhalt des Dokuments zu extrahieren. Dies passiert, weil die Funktion zur Codeausführung manuell in den Systemeinstellungen aktiviert wurde. Unter normalen Umständen ist die Funktion standardmäßig deaktiviert, um die Gefährdung zu begrenzen.

Obwohl KI-Agenten in der Regel Schutzmaßnahmen wie die Sperrung des Zugriffs auf dynamisch generierte URLs durch Missbrauchserkennungssysteme und regelbasierte Filter implementieren, lassen sich diese Maßnahmen umgehen. Angreifer können bekannte oder kompromittierte Domänen ausnutzen, die Standard-Blockierlisten umgehen, so dass Payloads eine Verbindung nach außen herstellen und Daten leaken.

Die Möglichkeit wirft erhebliche Bedenken hinsichtlich der Datensicherheit auf. In Ermangelung wirksamer Schutzmaßnahmen auf Serviceebene könnten Angreifer indirekte Prompt Injection nutzen, um sensible Daten zu exfiltrieren und so unbemerkt auf vertrauliche Informationen zugreifen.

Pandora

Pandora, der Proof-of-Concept (PoC) KI-Agent des Trend Micro Forward-looking Threat Research (FTR) Teams verfügt über Funktionen wie uneingeschränkte Code-Ausführung und Internetzugang, alles innerhalb einer Docker-basierten Sandbox. Mit diesen Funktionen kann er dynamisch Code ausführen und mit externen URLs interagieren.

In einem Testszenario löste Pandora beim Hochladen eines bösartigen Word-Dokuments ein MULTIMODAL_CONTEXT-Ereignis aus. Dieses Ereignis simulierte, wie KI-Systeme wie ChatGPT hochgeladene Dateien verarbeiten, indem sie deren Inhalt extrahieren und eine kontextabhängige Eingabeaufforderung erzeugen.

Das Dokument war in eine Python Payload eingebettet, die anschließend extrahiert und angezeigt wurde. Das deutet darauf hin, dass das System den Inhalt als Teil seiner Betriebslogik verarbeitet und verstanden hat. Weitere Einzelheiten dazu beinhaltet der Originalbeitrag.

Die Interaktion endete damit, dass Pandora mit der Meldung „Task complete“ - eine Ausgabe, die ebenfalls durch den eingeschleusten Code bestimmt wurde. Der Vorfall verdeutlicht, dass selbst bei Verwendung eines robusten Basismodells wie GPT-4o Schwachstellen vorhanden sein können, wenn keine Schutzmaßnahmen auf Serviceebene vorhanden sind.

Fazit

KI-Agenten und LLMs bieten zwar ein immenses Potenzial, können aber auch für bösartige Angriffe missbraucht werden, wenn sie nicht ordnungsgemäß gesichert sind. Eines der dringlichsten Probleme ist die indirekte Prompt-Injection, insbesondere in Kombination mit multimodalen Funktionen, die es bösartigen Inhalten ermöglichen, herkömmliche Verteidigungsmaßnahmen zu umgehen.

Um diese Herausforderungen zu bewältigen, müssen Unternehmen einen proaktiven Ansatz verfolgen, indem sie robuste Zugriffskontrollen durchsetzen, fortschrittliche Inhaltsfilter anwenden und Echtzeit-Überwachungssysteme einrichten. Diese Maßnahmen sind unerlässlich, um das Risiko von Datenlecks, unbefugten Handlungen und anderen Formen der KI-gestützten Ausbeutung zu verringern.

Da KI-Systeme immer ausgefeilter werden, müssen auch die sie umgebenden Sicherheitsvorkehrungen angepasst werden. Die Gewährleistung eines sicheren und verantwortungsvollen Einsatzes hängt nicht nur von den Fähigkeiten der Modelle selbst ab, sondern auch von der Stärke der Sicherheitsvorkehrungen auf Serviceebene, die ihre Nutzung kontrollieren.

Um der Bedrohung durch indirekte Prompt-Injection zu begegnen, ist ein umfassender, vielschichtiger Ansatz erforderlich.

Organisationen sollten die folgenden Gegenmaßnahmen in Betracht ziehen:

Implementieren Sie Beschränkungen auf Netzwerkebene, um Verbindungen zu ungeprüften oder potenziell schädlichen URLs zu verhindern.
Setzen Sie hochentwickelte Filter ein, um hochgeladene Inhalte auf versteckte Anweisungen zu analysieren.
Verwenden Sie Techniken zur optischen Zeichenerkennung (OCR) und Bildverbesserung, um versteckten Text in visuellen Inhalten zu erkennen.
Einsatz von Moderationssystemen und Modellen zur Erkennung von Bedrohungen, um eingebettete Befehlsversuche zu identifizieren und zu neutralisieren.
Bereinigen und Vorverarbeiten von Nutzereingaben, um potenziell gefährliche Eingabeaufforderungen zu entfernen oder zu isolieren.
Zeichnen Sie alle Interaktionen auf und achten Sie aktiv auf unregelmäßige oder verdächtige Verhaltensweisen des Sprachmodells, die auf einen Missbrauch hindeuten könnten.

Im nächsten Beitrag erläutern wir Schwachstellen beim Datenbankzugriff: Angreifer nutzen LLM-integrierte Datenbanksysteme durch SQL-Injection, Stored Prompt Injection und Vector Store Poisoning aus, um eingeschränkte Daten zu extrahieren und Authentifizierungsmechanismen zu umgehen.

Schwachstellen in KI-Agenten: Daten exfiltrieren

Authors

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Nord-, Mittel- und Südamerika

Naher Osten und Afrika

Europa

Asien-Pazifik