Workflow

KI-Ready Dokumente: Der vollständige Workflow

Von der Pseudonymisierung bis zur Re-Identifizierung in 6 Schritten

Bevor ein Dokument sicher an ein KI-Tool übergeben werden kann, muss es „KI-Ready“ gemacht werden: Personenbezogene Daten werden durch konsistente Pseudonyme ersetzt, die KI verarbeitet die pseudonymisierte Version, und anschließend werden die Originaldaten wiederhergestellt. Dieser Workflow umfasst sechs klar definierte Schritte.

Dieser Artikel beschreibt jeden Schritt im Detail — von der Dokumenten-Importierung bis zur Re-Identifizierung — und erklärt, worauf es bei jedem Schritt ankommt.

Schritt 1: Dokumente importieren

PDF, Word, E-Mail — über 70 Formate werden unterstützt

Im ersten Schritt werden die zu verarbeitenden Dokumente in Docuflair Mask importiert. Die Software unterstützt über 70 Dateiformate:

  • Office-Dokumente: Word (.docx), Excel (.xlsx), PowerPoint (.pptx)
  • PDF: Native PDFs und gescannte PDFs (mit integrierter OCR)
  • Scans und Bilder: TIFF, JPEG, PNG, BMP
  • E-Mail: MSG, EML (inklusive Anhänge)
  • Weitere: RTF, TXT, CSV, HTML und viele mehr

Die Dokumente können einzeln oder in Batches importiert werden. Bei gescannten Dokumenten wird automatisch eine OCR-Texterkennung durchgeführt, um den Text maschinenlesbar zu machen.

Wichtig: Alle Dokumente bleiben On-Premises. Der Import erfolgt lokal — kein Dokument wird für die Pseudonymisierung an externe Server übertragen.

Schritt 2: PII automatisch erkennen

9 Kategorien personenbezogener Daten werden automatisch identifiziert

Die Software analysiert den Dokumenteninhalt und erkennt personenbezogene Daten automatisch. Dabei werden 9 Kategorien unterschieden:

Kategorie Erkennungsmethode Beispiele
NamenWörterbuch + KontextanalyseMax Müller, Dr. Schmidt
E-Mail-AdressenPattern-Erkennungmax@firma.de
AdressenKontextbasiertMusterstraße 12, 80331 München
TelefonnummernPattern-Erkennung+49 89 123456
IBAN-NummernPrüfziffer-ValidierungDE89 3704 0044 0532 0130 00
FirmennamenWörterbuch + KontextanalyseABC GmbH, XYZ AG
DatumsangabenPattern-Erkennung15.03.2026, 2026-03-15
SteuernummernLänderspezifische FormateUSt-IdNr., Steuernummer
SozialversicherungsnummernLänderspezifische FormateSV-Nummer, AHV-Nr.

Die Erkennung kombiniert regelbasierte Pattern-Erkennung mit Wörterbuch-Abgleich und Kontextanalyse. Wörterbücher können individuell gepflegt werden — etwa durch Import aus Active Directory oder CSV-Dateien.

Schritt 3: Konsistente Pseudonyme generieren

„Max Müller“ wird in ALLEN Dokumenten zu „Person_A“

Nach der Erkennung werden die personenbezogenen Daten durch konsistente Pseudonyme ersetzt. Das Kernprinzip: Gleiche Person = gleiches Pseudonym — über alle Dokumente und alle Verarbeitungsdurchläufe hinweg.

Konsistenz ist der Schlüssel

Wenn Max Müller in 50 Dokumenten vorkommt, wird er überall zu Person_A. Wenn seine Frau Anna Müller in 30 Dokumenten erscheint, wird sie überall zu Person_B. So bleiben Zusammenhänge erhalten:

  • In Dokument 1: „Person_A unterzeichnete den Vertrag mit Firma_A“
  • In Dokument 2: „Person_A erhielt eine E-Mail von Person_C“
  • In Dokument 3: „Die Rechnung wurde an Adresse_A von Person_A gesendet“

Die KI erkennt, dass es sich überall um dieselbe Person handelt — ohne deren Identität zu kennen.

Batch-übergreifende Pseudonyme

Die Konsistenz gilt nicht nur innerhalb eines Verarbeitungsdurchlaufs, sondern auch batch-übergreifend. Wenn Max Müller in Charge 1 als Person_A pseudonymisiert wurde, erhält er auch in Charge 2, 3 und allen weiteren Durchläufen das Pseudonym Person_A. Die Ersetzungstabelle wird kontinuierlich erweitert.

Schritt 4: Pseudonymisierte Version exportieren

Das KI-Ready Dokument wird zur Übergabe an externe Tools bereitgestellt

Nach der Pseudonymisierung wird das Dokument exportiert. Es enthält ausschließlich Pseudonyme — keine echten personenbezogenen Daten. Dieses KI-Ready Dokument kann sicher an externe KI-Tools übergeben werden:

  • ChatGPT — für Analyse, Zusammenfassung oder Texterstellung
  • DeepL — für Übersetzungen
  • Copilot — für E-Mail-Zusammenfassungen und Dokumentenanalyse
  • Claude — für Gutachten-Prüfung und Vertragsanalyse
  • Andere KI-Tools — für beliebige Verarbeitungszwecke

Da keine personenbezogenen Daten übertragen werden, ist das DSGVO-Risiko minimiert — unabhängig davon, welches KI-Tool verwendet wird und wo dessen Server stehen.

Schritt 5: KI-Ergebnis empfangen

Die KI liefert ein Ergebnis auf Basis der pseudonymisierten Daten

Das KI-Tool verarbeitet das pseudonymisierte Dokument und liefert ein Ergebnis. Dieses Ergebnis enthält ebenfalls nur Pseudonyme:

KI-Zusammenfassung (pseudonymisiert): „Der Vertrag zwischen Person_A und Firma_A regelt die Lieferung von Produkt_A. Firma_A verpflichtet sich zur Lieferung bis Datum_B. Bei Verzug hat Person_A Anspruch auf eine Vertragsstrafe in Höhe von Betrag_B pro Tag.“

Die Zusammenfassung ist inhaltlich vollständig und korrekt — nur die personenbezogenen Daten sind pseudonymisiert. Im nächsten Schritt werden die Pseudonyme durch die Originaldaten ersetzt.

Schritt 6: Re-Identifizierung

Pseudonyme werden über die Ersetzungstabelle durch Originaldaten ersetzt

Im letzten Schritt werden die Pseudonyme im KI-Ergebnis durch die Originaldaten ersetzt. Docuflair Mask verwendet die verschlüsselte Ersetzungstabelle, um Person_A wieder zu Max Müller, Firma_A wieder zu ABC GmbH und Adresse_A wieder zur Musterstraße 12 zu machen.

Fertiges Ergebnis: „Der Vertrag zwischen Max Müller und der ABC GmbH regelt die Lieferung von Produkt X. Die ABC GmbH verpflichtet sich zur Lieferung bis 30.04.2026. Bei Verzug hat Max Müller Anspruch auf eine Vertragsstrafe in Höhe von 500 EUR pro Tag.“

Sicherheit der Ersetzungstabelle

  • Verschlüsselte Speicherung: Die Tabelle wird AES-verschlüsselt gespeichert
  • Separate Aufbewahrung: Die Tabelle wird getrennt vom pseudonymisierten Dokument gespeichert
  • Zugriffskontrolle: Nur autorisierte Benutzer können die Tabelle einsehen und re-identifizieren
  • Audit-Trail: Jeder Zugriff auf die Tabelle und jede Re-Identifizierung wird protokolliert

Den Workflow live erleben

Sehen Sie in einer 15-minütigen Demo, wie Docuflair Mask den gesamten Workflow von der Pseudonymisierung bis zur Re-Identifizierung automatisiert. On-Premises und DSGVO-konform.

Häufig gestellte Fragen

Antworten auf die wichtigsten Fragen zum Pseudonymisierungs-Workflow

Wie viele Dateiformate unterstützt Docuflair Mask?

Docuflair Mask unterstützt über 70 Dateiformate, darunter PDF, Word, Excel, PowerPoint, gescannte Dokumente (TIFF, JPEG, PNG) und E-Mail-Formate (MSG, EML). Die integrierte OCR-Texterkennung ermöglicht die Pseudonymisierung auch von gescannten und bildbasierten Dokumenten.

Welche PII-Kategorien erkennt die Software automatisch?

Docuflair Mask erkennt 9 Kategorien personenbezogener Daten automatisch: Namen, E-Mail-Adressen, Adressen, Telefonnummern, IBAN-Nummern, Firmennamen, Datumsangaben, Steuernummern und Sozialversicherungsnummern. Die Kategorien sind frei konfigurierbar und erweiterbar.

Wie wird die Ersetzungstabelle geschützt?

Ersetzungstabellen werden verschlüsselt gespeichert und separat vom pseudonymisierten Dokument aufbewahrt. Nur autorisierte Benutzer haben Zugriff. Alle Zugriffe werden im Audit-Trail protokolliert. Die Tabelle kann zusätzlich exportiert und in einem externen Tresor gesichert werden.

Was bedeutet batch-übergreifende Konsistenz?

Batch-übergreifende Konsistenz bedeutet, dass dieselbe Person über mehrere Verarbeitungsdurchläufe und Dokumentensätze hinweg immer dasselbe Pseudonym erhält. Wenn Max Müller in Charge 1 als Person_A pseudonymisiert wird, erhält er auch in Charge 2, 3 und allen weiteren Durchläufen das Pseudonym Person_A.

In 15 Min. live erleben

Unverbindlich & kostenlos
Demo starten