Social Engineering-Kampagne mit Voice DeepFake

In einer Warnung spricht das FBI von einer neuen Social Engineering-Methode, mit der die cyberkriminelle Gruppe Scattered Spider gerade in den USA mehrere Fluglinien angreift. Die Gruppe ist ein sogenannter Affiliate, also Subunternehmer, von Ransomware as a Service (RaaS) Gangs. Sie übernimmt in der Regel den Angriff und verteilt die angemietete Ransomware. Kommt es zur Verschlüsselung, übernimmt der RaaS Anbieter die Verhandlungen. Erpresste Gewinne werden untereinander aufgeteilt.

Auf sich aufmerksam machte die Gruppe durch Cyberangriffe auf die US Hotels bzw. Casinos „Caesars“ und „MGM Resorts“. In neuerer Zeit zählen zu ihren Opfern die britischen Einzelhandelsketten Marc & Spencers, Coop und Harrods. Was die Täter so gefährlich macht, ist ihre Herkunft. Denn alle bisher bekannten (und verhafteten) Personen sind junge, englischsprachige Personen, häufig gar noch Teenager. Die lose globale Gruppe ist vor allem für ihr ausgefeiltes Social Engineering bekannt. Denn anders als andere Banden, sind sie dabei nicht auf schriftliche Medien beschränkt. Die neue Taktik schließt Voice DeepFake mit ein.

Ablauf der Tat

Der Angriff startet mit einem Anruf. Dieser richtet sich an Mitarbeiter, die im Vorfeld vermutlich über soziale Medien wie LinkedIn ausgekundschaftet wurden. Im Telefonat werden den nichtsahnenden Mitarbeitern verschiedene Fragen gestellt - akzentfrei, dafür mit jugendlicher Stimme und wenig fachspezifischen Themen. Wer unterstützt nicht gerne einen jungen Menschen beim Start ins Arbeitsleben?

Die Antworten werden durch die Täter aufgezeichnet. Der Inhalt spielt dabei keine Rolle. Vielmehr geht es um den „Sound“ der Stimme. Es ist wichtiger, möglichst viel Text zu bekommen. Mit diesen Textbausteinen wird nun eine Stimm-KI trainiert. Sie soll die Tonlage und Aussprache des Angerufenen exakt nachahmen (so genanntes Voice Cloning oder Audio- DeepFake). Anschließend wird mit eben dieser Stimme im Helpdesk angerufen. Kennen sich die Kollegen persönlich, was in kleineren Unternehmen oder bei Außenstellen durchaus üblich ist, dann ist die Wahrscheinlichkeit hoch, dass dies als Identifikation ausreicht.

Die DeepFake-Stimme bittet nun darum, dass Sicherheitsmechanismen zurückgesetzt oder auf andere Geräte übertragen werden. Erfolgt keine zusätzliche Überprüfung, z.B. über einen per Teams/Zoom gezeigten Ausweis, haben die Täter den ersten Schritt - den Zugang ins Unternehmen - erfolgreich bewerkstelligt.

Deutsch eine Hürde?

Tatsächlich hat uns die deutsche Sprache aufgrund ihrer Komplexität in der Vergangenheit vor vielen Social Engineering-Angriffen geschützt. Eine Bank-Mail mit Rechtschreibfehlern und Anreden wie „Geliebter Kunde“ beispielsweise wirkt nicht gerade überzeugend. Im Schriftverkehr reduziert KI diesen Schutzschild immer mehr. Wie sieht es aber in der mündlichen Kommunikation aus?

Was die Durchführung eines solchen Angriffs angeht, so müssen zwei Teile unterschieden werden. Zunächst ist da der Anruf, mit dessen Hilfe letztlich die zu imitierende Stimme aufgenommen wird. Dieser muss interaktiv genug gestaltet sein, um möglichst viele Sprach-Samples der Person zu erhalten. Aber wie findet man solche Anrufer? Dafür sind Rekrutierer im digitalen Untergrund aber auch mit Direktangeboten per Mail oder gar Telefon unterwegs. Gesucht werden „dynamische junge Menschen“ für „einfache Arbeit, die bequem von zu Hause“ aus verrichtet werden kann. Sie sollen Menschen anhand einer vorgegebenen Liste anrufen, mit diesen freundliche Telefonate führen und die Aufnahmen dieser Anrufe anschließend an einen Supervisor schicken.

Hört sich nach Callcenter an? Genau so wird es den potentiellen Berufsanfängern auch versprochen. Werden sie für ihre Tätigkeit bezahlt? Die Antwort darauf ist interessanter als man glauben mag… oft nicht, aber in einigen Betrugsfällen konnte die Zusammenarbeit mit professionellen Callcentern über Monate nachgewiesen werden.

Anruf im Helpdesk

Spannender ist der zweite Teil, der Anruf im Helpdesk. Der Voice-DeepFake-Technologie ist es egal, welche Sprache zu imitieren ist, solange genügend Samples vorhanden sind. Eine der Varianten besteht darin, die Maschine selbst anrufen zu lassen. Das hat den Nachteil, dass ihre Reaktionsfähigkeit begrenzt ist. Es entstehen unnatürliche Pausen. Auch ein echtes zwischenmenschliches Gespräch kann nicht stattfinden.

Die zweite Variante sieht vor, einen Menschen anrufen zu lassen, dessen Stimme durch die Deep Fake-Technologie verändert wird (z.B. Real-Time Voice Transforming). Aus Sicht der Angreifer allerdings ist dies schwieriger, weil auch hierfür ein Muttersprachler benötigt wird. Andernfalls hören sich Satzbau und Ausdruck unnatürlich an.

Ein Mensch, der solche Anrufe tätigt, wird damit unweigerlich zum Täter - für Scattered Spider und Englisch kein Problem. Aber finden sich auch in Deutschland Menschen, die für ein paar Fake/Prank-Anrufe zu haben sind? Im digitalen Untergrund werden definitiv welche gesucht. Wir haben „Stellenangebote“ von 2000 € aufwärts gesehen. Mit und ohne Ankündigung, dass es sich um ein „black“, also bösartiges Geschäftsmodell handelt.

Augen auf

Wie hoch die Gefahr genau für deutsche Unternehmen ist, lässt sich schwer einschätzen. Dass die Methode wirkt, ist nachgewiesen. Nicht umsonst sah sich das FBI genötigt, eine entsprechende Warnung herauszugeben. Deshalb empfiehlt es sich dringend, das beschriebene Schema in Mitarbeiterschulungen zu berücksichtigen. Gibt es die berechtigte Annahme, dass ein Zugriff bereits erfolgt ist, sollten entsprechende Maßnahmen wie eine Analyse des Netzwerkverkehrs oder sogar Incident Response beauftragt werden.

Social Engineering-Kampagne mit Voice DeepFake

Authors

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Nord-, Mittel- und Südamerika

Naher Osten und Afrika

Europa

Asien-Pazifik