Moderne Schwärzungssoftware automatisiert den Großteil des Prozesses. Anstatt jedes Dokument manuell durchzugehen und sensible Stellen einzeln zu markieren, übernimmt die Software die Erkennung und Entfernung in mehreren Schritten:
1. OCR-Texterkennung
Im ersten Schritt werden gescannte Dokumente und Bilder per OCR in maschinenlesbaren Text umgewandelt. Das ist die Grundvoraussetzung, damit die Software überhaupt erkennen kann, welche Informationen im Dokument enthalten sind. Ohne OCR wäre die automatische Schwärzung von Scans und Bilddateien nicht möglich.
2. Wörterbuch- und Dictionary-Abgleich
Die Software vergleicht den erkannten Text mit hinterlegten Wörterbüchern. Diese enthalten beispielsweise Namen von Mitarbeitern, Kunden oder Geschäftspartnern. Wird ein Treffer gefunden, markiert die Software die betreffende Stelle automatisch zur Schwärzung. Wörterbücher lassen sich individuell pflegen und erweitern — etwa durch Import aus Active Directory oder aus CSV-Dateien.
3. Pattern-Erkennung (PII-Detection)
Neben dem Wörterbuch-Abgleich erkennt professionelle Schwärzungssoftware personenbezogene Daten (PII) anhand von Mustern. Dazu gehören unter anderem:
- E-Mail-Adressen — anhand des @-Zeichens und Domain-Struktur
- Telefonnummern — nationale und internationale Formate
- IBAN-Nummern — länderspezifische Prüfziffern
- Postleitzahlen und Adressen — kontextbasierte Erkennung
- Sozialversicherungsnummern — formatabhängig je nach Land
- Steuernummern — UID, Steuernummer, Tax-ID
- Datumsangaben — verschiedene Formate (TT.MM.JJJJ, MM/DD/YYYY etc.)
4. Manuelle Überprüfung und Nachbearbeitung
Nach der automatischen Erkennung können die Ergebnisse in einem integrierten Viewer überprüft werden. Dabei lassen sich einzelne Schwärzungen bestätigen, entfernen oder manuell ergänzen. Dieser Schritt ist besonders bei rechtlich sensiblen Dokumenten wichtig, um sicherzustellen, dass weder zu viel noch zu wenig geschwärzt wurde.
5. Sicherer Export
Im letzten Schritt wird das Dokument exportiert. Dabei ist entscheidend, dass die Schwärzung irreversibel ist: Die ursprünglichen Daten dürfen nicht mehr aus der Datei extrahierbar sein — weder über Copy-and-Paste noch über die Metadaten oder die Dateistruktur. Professionelle Software exportiert in Formate wie PDF/A, die langfristige Archivierung und Rechtskonformität gewährleisten.